MultiAgentLearning/playground

PlayGround: AI Research into Multi-Agent Learning.

GAI 中文摘要

Playground 是一个专门为多智能体强化学习研究设计的实验平台，它通过复刻经典游戏炸弹人（Bomberman）构建了一套标准化评估环境。该项目旨在解决多智能体领域缺乏易用基准测试的问题，为研究人员提供了一个验证算法、竞技交流及协作通讯研究的统一平台。

提供三种游戏模式，包括考察规划与战术的四人混战模式、侧重协作的2v2团队模式以及引入受限通讯机制的团队无线电模式。支持将智能体封装在Docker容器中，方便开发者提交并参与官方定期举办的全球竞赛。集成示例训练脚本，展示了如何将环境与主流深度学习库（如TensorForce）进行对接，降低了多智能体学习的入门门槛。提供完整的比赛结果记录与回放功能，有助于研究人员分析智能体的行为表现并持续优化算法。

本项目适用于机器学习研究人员、对多智能体协作及通讯感兴趣的开发者，以及希望通过经典游戏AI竞赛来磨炼算法能力的算法工程师。通过参与竞赛，用户可以在实际博弈场景中验证算法性能，并探索智能体在受限或竞争环境下的决策行为。

⭐

784

Stars

🔱

216

Forks

👁

Watchers

📋

Issues

PythonApache-2.0创建于 2017/12/26更新于 1 周前

在 GitHub 上查看访问主页

README

由 Gemini 翻译整理

Playground

第一次来？请访问我们的网站了解更多信息，加入我们的 Discord 社区，或阅读文档以开始使用。

Playground 托管了 Pommerman，这是一个专为 AI 研究构建的《炸弹人》（Bomberman）克隆版。世界各地的人们提交他们训练的智能体（Agent）进行对战。我们在服务器上定期举办竞赛，并发布比赛结果和回放。

你可以选择以下三种模式来提交你的智能体参加比赛：

FFA (Free For All)：混战模式，四名智能体进入，仅有一名胜出。它考验规划、战术和谋略。棋盘是完全可观测的。
Team (NIPS '18 竞赛环境)：2v2 模式，两个智能体团队进入，一个团队获胜。它考验规划、战术和合作。棋盘是部分可观测的。
Team Radio：类似于 2v2 团队模式。不同之处在于每个智能体都配有一个无线电，每一步可以使用它传达 8 个词汇字典中的 2 个词。

为什么要参与？

你是一名机器学习研究者，同样意识到了该子领域缺乏易于上手的 Benchmark。帮助我们纠正这一点，并证明你的算法优于他人。
你希望为多智能体（Multi-agent）或通信研究做出贡献。这首先是一个进行研究的平台，我们在这里所做的一切最终都会得到我们慷慨的（或主要的）支持并公开发表。
你真的很喜欢（或曾经喜欢）《炸弹人》并对 AI 着迷。这是一个学习如何构建智能体的大好机会。
你想要赢得 AI 竞赛的荣耀。我们将广泛宣传比赛结果。
你认为 AI 很笨，并且可以构建一个能够击败任何学习型智能体的确定性系统。

如何训练智能体？

该领域大多数开源研究工具都是为单智能体设计的。我们将开发资源以实现多智能体学习的标准化。在此期间，我们提供了示例训练脚本 train_with_tensorforce.py。它演示了如何封装 Pommerman 环境，以便可以使用 TensorForce 等主流库进行训练。

如何提交我训练的智能体？

提交智能体的配置即将上线。它涉及创建一个运行你智能体的 Docker 容器。然后，我们将通过 Github Deploy Keys 读取并上传你的 Docker 文件。你保留智能体的所有权和许可权。我们只会查看你的代码，以确保其运行安全，不执行任何恶意操作，且不作弊。我们只会在服务器上的比赛中运行你的智能体。我们已经有一个可以运行的示例智能体，更多说明位于 games/a/docker 目录中。

谁在运营这个项目？

Cinjon Resnick、Denny Britz、David Ha、Jakob Foerster 和 Wes Eldridge 是该项目的幕后人员。我们得到了包括 Kyunghyun Cho、Joan Bruna、Julian Togelius 和 Jason Weston 在内的众多人士的慷慨支持。你可以在 Discord 中找到我们。

Pommerman 非常感谢 Jane Street Capital、NVidia、Facebook AI Research 和 Google Cloud 提供的慷慨援助。

我该如何提供帮助？

若要了解如何参与本项目，请前往我们的贡献指南 (Contributing Guide) 并查看我们当前的 issues。

贡献

我们欢迎通过 Pull Request 进行贡献。详见 CONTRIBUTING。

行为准则

我们致力于打造一个开放的社区。请阅读我们的行为准则 (CODE OF CONDUCT)。

引用

如果你在研究中使用了 Pommerman 环境，请使用 docs 中的 bibtex 文件引用我们。