[ICLR 2026] LLM/VLM gaming agents and model evaluation through games.
GamingAgent 是一个用于评估大语言模型与多模态模型在交互式游戏环境中表现的开源平台,同时也提供了一套先进的工作流以构建能够游玩视频游戏的智能体。该项目旨在通过标准化的测试基准和计算机操作智能体框架,量化并提升模型在复杂动态游戏场景中的决策能力与操作水平。
提供基于各类主流大模型(如GPT-4o、Claude 3.5、DeepSeek等)的游戏智能体部署方案,实现模型与游戏环境的交互。 内置标准化的游戏评估基准,支持对单一模型进行无辅助性能测试,客观衡量其游戏理解与执行能力。 包含专门设计的 GamingAgent 工作流框架,通过系统性的增强手段显著提升模型在游戏任务中的表现。 支持在个人电脑或笔记本上轻松部署计算机操作智能体,实现对多种经典视频游戏的自动化游玩。 提供配套的公开排行榜与实时性能监测工具,方便开发者进行模型间的横向对比与深入分析。
该项目主要面向人工智能研究人员、模型评估工程师以及对游戏智能体开发感兴趣的开发者,适用于模型能力基准测试、自动化游戏辅助系统研发以及计算机操作类智能体应用探索等场景。