A Comprehensive Benchmark to Evaluate LLMs as Agents (ICLR'24)
AgentBench 是一个全面评估大语言模型作为智能体(Agent)能力的基准测试平台。它旨在通过多任务、多轮交互的复杂场景,量化模型在现实世界任务中的决策、规划与工具调用表现。
提供统一的智能体性能评估框架,涵盖操作系统、数据库、知识图谱及电商购物等多元化任务场景。 集成 Function Calling 风格的提示词评估,更契合当前主流大模型的工具调用交互模式。 支持完全容器化的部署方案,利用 Docker Compose 简化测试环境搭建与任务隔离。 深度集成 AgentRL 框架,实现端到端的多任务与多轮对话性能监测。 提供实时更新的排行榜,方便研究者对比不同模型在复杂指令执行和环境交互中的准确性。
适用于大模型研究人员、Agent 应用开发者及 AI 系统架构师,用于衡量不同 LLM 在构建自动化智能体过程中的综合推理与执行能力。