A Comprehensive Benchmark to Evaluate LLMs as Agents (ICLR'24)
AgentBench 是一个全面评估大语言模型作为智能体(Agent)能力的综合基准测试框架。它通过构建多任务、多轮对话的环境,旨在定量评估模型在复杂交互场景中的实际操作与逻辑执行表现。
支持多种智能体任务环境,涵盖操作系统交互、数据库操作、知识图谱查询及网页浏览等领域。 提供完全容器化的部署方案,利用 Docker Compose 实现多任务工作节点的快速配置与管理。 内置标准化评估流程,支持函数调用(Function Calling)风格的提示词评估,并集成了 AgentRL 强化学习框架。 具备高度可扩展性,能够通过增加工作节点轻松处理多任务并发执行的需求。
本项目主要适用于大模型研发人员、智能体应用开发者及学术研究者,用于深入评测模型在自动化任务执行、工具调用及环境交互方面的性能表现。