lmgame-org/GamingAgent

[ICLR 2026] LLM/VLM gaming agents and model evaluation through games.

GAI 中文摘要

GamingAgent 是一个基于大语言模型（LLM）和视觉语言模型（VLM）的交互式游戏智能体评测与开发框架。该项目旨在通过标准化的游戏环境，系统化地评估先进 AI 模型在复杂游戏场景下的决策能力，并提供了一套专用的工作流以优化智能体的游戏表现。

支持在多种主流视频游戏中对单一模型进行基准测试，评估其原生游戏处理能力。

内置专门的 GamingAgent 工作流（Gaming Harness），通过系统化引导显著提升智能体的游戏操作水平。

提供了一套简单易用的解决方案，支持用户在个人电脑或笔记本上直接部署和运行计算机操作智能体。

集成了 OpenAI、Anthropic、Google、DeepSeek 和 Qwen 等多种前沿模型接口，方便用户直接调用进行对比测试。

项目主要面向 AI 研究人员、开发者及模型性能评估者，适用于进行模型智能基准对比、复杂游戏任务规划研究及个人电脑自动化游戏智能体部署。

⭐

933

Stars

🔱

102

Forks

👁

Watchers

📋

Issues

PythonMIT创建于 2025/2/27更新于今天

在 GitHub 上查看

README

由 Gemini 翻译整理

LMGame Bench 与 Gaming Agent

📜 论文 | 🏆 排行榜 | 📺 展示页面 | 🌐 官方网站

简介

本仓库旨在标准化交互式游戏环境中支持并测试基于 LLM/VLM 的智能体。它包含两个主要功能：

在原生单模型 VLM 设置下（不使用 gaming harness），利用多种电子游戏对最先进的模型进行评估。
通过我们定制的 GamingAgent 工作流（gaming harness）部署并评估模型，以提升模型的游戏性能。

此外，本仓库还提供了一套简便的解决方案，用于在个人电脑和笔记本电脑上部署游戏专用的计算机使用智能体（Computer-Use Agents, CUA）。

新闻 🔥

[2025/6] Lmgame Bench 正式发布！查看我们的论文和排行榜以获取更多详情。
[2025/3] 我们构建了游戏智能体，并在经典电子游戏上测试了不同模型。观看我们的 YouTube 频道获取对比视频！

安装

克隆本仓库：

git clone https://github.com/lmgame-org/GamingAgent.git
cd GamingAgent

安装依赖：

conda create -n lmgame python==3.10 -y
conda activate lmgame
pip install -e .

API 支持

目前我们支持基于以下模型的游戏智能体：

OpenAI:
- o4-mini
- o3-mini, o3
- o1
- gpt-4o
- gpt-4o-mini
Anthropic:
- claude-4-opus, claude-4-sonnet (包含 thinking 模式)
- claude-3-7-sonnet (包含 thinking 模式)
- claude-3-5-haiku, claude-3-5-sonnet
Gemini:
- gemini-2.5-pro, gemini-2.5-flash
- gemini-2.0-flash-thinking-exp
- gemini-2.0-pro, gemini-2.0-flash
- gemini-1.5-pro
xAI:
- grok-3-mini
Deepseek:
- reasoner (R1)
- chat (V3)
Qwen:
- Qwen3

查看我们的排行榜来对比它们的表现！

若要自行测试模型，请通过以下方式在 credentials.sh 中设置 API Key：

export OPENAI_API_KEY={YOUR_OPENAI_API_KEY}
export ANTHROPIC_API_KEY={YOUR_ANTHROPIC_API_KEY}
export GEMINI_API_KEY={YOUR_GEMINI_API_KEY}
export XAI_API_KEY={YOUR_XAI_API_KEY}
export DEEPSEEK_API_KEY={YOUR_DEEPSEEK_API_KEY}

⚠️ 使用高端模型进行评估或部署智能体可能会产生较高费用！

Lmgame Bench

设置

Gym 与 Retro 接口

Gymnasium 环境

我们遵循 Gymnasium 标准化了我们的游戏环境接口。

目前我们的评估套件包含以下使用 gym 环境的游戏：

Sokoban（推箱子）
Tetris（俄罗斯方块）
2048
Candy Crush（糖果传奇）
Pokemon Red（精灵宝可梦：红）

大多数游戏开箱即用，无需额外设置。对于 Pokemon Red，你需要将 ROM 文件放入指定目录：

Pokemon Red 设置：

将 Pokemon Red ROM 文件 (pokemon.gb) 放入：gamingagent/configs/custom_06_pokemon_red/rom/
我们使用 pyboy 作为 Game Boy 模拟器，将 Pokemon Red 集成到 gymnasium 环境中。

Retro 环境

Stable Retro 是一个支持通过多种系统进行经典电子游戏模拟的库，它通过 Gymnasium 提供了标准化接口。

要运行在 Retro 上实现的经典游戏，你需要合法获取游戏文件并按照此说明进行导入：

python3 -m retro.import /path/to/your/ROMs/directory/

目前，我们的评估套件包含以下来自 Retro 环境的游戏：

Super Mario Bros 1985（超级马里奥兄弟）

我们还集成了额外的 Retro 环境，这些环境未包含在 stable-retro 中。对于这些游戏，无需使用 retro.import，只需将 ROM 文件放入指定目录即可启用环境。

例如，对于《逆转裁判：成步堂龙一》，将 ROM 文件放入：

gamingagent/envs/retro_02_ace_attorney/AceAttorney-GbAdvance

我们集成的其他游戏：

Ace Attorney: Phoenix Wright（逆转裁判：成步堂龙一）

仅 UI 接口

敬请期待！

单模型性能

使用以下命令为某个模型在不同游戏上启动多个评估实例（并行）：

python3 lmgame-bench/run.py --model_name {model_name} --game_names {list_of_games} --harness_mode false

要并行运行多个模型，请参考以下操作...