[ICLR 2026] LLM/VLM gaming agents and model evaluation through games.
GamingAgent 是一个基于大语言模型(LLM)和视觉语言模型(VLM)的交互式游戏智能体评测与开发框架。该项目旨在通过标准化的游戏环境,系统化地评估先进 AI 模型在复杂游戏场景下的决策能力,并提供了一套专用的工作流以优化智能体的游戏表现。
支持在多种主流视频游戏中对单一模型进行基准测试,评估其原生游戏处理能力。
内置专门的 GamingAgent 工作流(Gaming Harness),通过系统化引导显著提升智能体的游戏操作水平。
提供了一套简单易用的解决方案,支持用户在个人电脑或笔记本上直接部署和运行计算机操作智能体。
集成了 OpenAI、Anthropic、Google、DeepSeek 和 Qwen 等多种前沿模型接口,方便用户直接调用进行对比测试。
项目主要面向 AI 研究人员、开发者及模型性能评估者,适用于进行模型智能基准对比、复杂游戏任务规划研究及个人电脑自动化游戏智能体部署。