© 2026FindAgent  · @simprr
返回列表
T

THUDM/AgentBench

A Comprehensive Benchmark to Evaluate LLMs as Agents (ICLR'24)

chatgptgpt-4llmllm-agent
⭐

3.3k

Stars

🔱

242

Forks

👁

26

Watchers

📋

68

Issues

PythonApache-2.0创建于 2023/7/28更新于 今天
在 GitHub 上查看
README
由 Gemini 翻译整理

AgentBench

🌐 排行榜 (新) | 🐦 Twitter | ✉️ Google Group | 📃 论文

👋 加入我们的 Slack 以获取 Q&A 或参与 AgentBench 下一版本的合作开发!

🔥[2025.10.10] 基于 AgentRL 的 AgentBench FC (Function Calling) 发布

当前仓库包含 AgentBench 的函数调用(Function Calling)版本,该版本集成了 AgentRL,这是一个端到端的、支持多任务和多轮对话的 LLM Agent RL 框架。 如果您希望使用旧版本,可以切换至 v0.1 或 v0.2 分支。

与最初的 AgentBench 相比,此版本采用了函数调用风格的提示词(Prompt),并为以下任务添加了完全容器化的部署支持:

  • alfworld (AF)
  • dbbench (DB)
  • knowledgegraph (KG)
  • os_interaction (OS)
  • webshop (WS)

快速开始

我们支持使用 Docker Compose 对上述所有任务进行一键式部署。

在开始之前,请先下载或构建任务所需的 Docker 镜像:

# dbbench
docker pull mysql:8

# os_interaction
docker build -t local-os/default -f ./data/os_interaction/res/dockerfiles/default data/os_interaction/res/dockerfiles
docker build -t local-os/packages -f ./data/os_interaction/res/dockerfiles/packages data/os_interaction/res/dockerfiles
docker build -t local-os/ubuntu -f ./data/os_interaction/res/dockerfiles/ubuntu data/os_interaction/res/dockerfiles

要运行 KG freebase 服务器,您还需要一份数据副本,可从此处获取。 下载并解压后,将数据放置在 ./virtuoso_db/virtuoso.db(或者修改 extra/docker-compose.yml 并将挂载点设置为您的数据位置)。

随后,您可以使用以下命令启动环境:

docker compose -f extra/docker-compose.yml up

此命令将下载或构建必要的 Docker 镜像,并在 Docker 中启动以下服务:

  • AgentRL Controller
  • alfworld 任务工作节点(默认 x1,可按需增加)
  • dbbench 任务工作节点(默认 x1,可按需增加)
  • knowledgegraph 任务工作节点(默认 x1,可按需增加)
  • os_interaction 任务工作节点(默认 x1,可按需增加)
  • webshop 任务工作节点(默认 x1,可按需增加)
  • freebase 服务器(用于 knowledgegraph 任务)
  • Redis 服务器(用于容器分配)

如果您的机器已经运行了 Redis(7.0 以上版本),则可以在 docker-compose.yml 中省略 Redis 服务。

[!WARNING]
请注意,webshop 环境启动需要约 16GB 的内存,且当前 alfworld 的实现存在内存和磁盘空间泄漏问题,直到重启任务工作节点。在运行前,请确保您的机器资源充足。

评测结果

我们报告了 AgentBench FC 测试集上各模型的表现。

img.png

请参阅我们的 排行榜 以查看完整结果。如有疑问或希望贡献您的测评结果,请联系 agentbench_fc@googlegroups.com。


🔥[2024.08.13] 介绍 VisualAgentBench

VisualAgentBench 旨在评估和训练基于大型多模态模型 (LMMs) 的视觉基础 Agent。我们引入了 5 个不同的环境,涵盖:

  • 具身智能 (Embodied):VAB-OmniGibson, VAB-Minecraft
  • 图形用户界面 (GUI):VAB-Mobile, VAB-WebArena-Lite
  • 视觉设计 (Visual Design):VAB-CSS

该项目对 17 个 LMM(闭源及开源模型)进行了系统化评测。我们还提供了用于行为克隆 (Behavior Cloning) 训练的轨迹数据集,供您开发属于自己的视觉基础 Agent!


以下是原始 AgentBench (v0.2) 的介绍。

AgentBench:评估 LLM 作为 Agent 的表现

https://github.com/THUDM/AgentBench/assets/129033897/656eed6e-d9d9-4d07-b568-f43f5a451f04

AgentBench 是首个旨在评估 LLM-as-Agent 在多种不同环境中表现的基准测试。它包含 8 个不同的环境,能够更全面地评估 LLM 在各种场景下作为自主 Agent 的操作能力。这些环境包括 5 个全新创建的领域:

  • 操作系统 (OS)
  • 数据库 (DB)
  • 知识图谱 (KG)
  • 数字卡牌游戏 (DCG)
  • 横向思维谜题 (LTP)

以及 3 个从现有数据集重构的环境:

  • 家庭助理 (HH) (ALFWorld)
  • 网络购物 (WS) (WebShop)
  • 网页浏览 (WB) (Mind2Web)

目录

  • 数据集摘要
  • 排行榜
  • 快速开始
  • 后续步骤
贡献者
HXzLrBTZcp
项目信息
默认分支main
LicenseApache License 2.0
创建时间2023/7/28
最近更新今天
GAI 中文摘要

AgentBench 是一个全面评估大语言模型作为智能体(Agent)能力的基准测试平台。它旨在通过多任务、多轮交互的复杂场景,量化模型在现实世界任务中的决策、规划与工具调用表现。

提供统一的智能体性能评估框架,涵盖操作系统、数据库、知识图谱及电商购物等多元化任务场景。 集成 Function Calling 风格的提示词评估,更契合当前主流大模型的工具调用交互模式。 支持完全容器化的部署方案,利用 Docker Compose 简化测试环境搭建与任务隔离。 深度集成 AgentRL 框架,实现端到端的多任务与多轮对话性能监测。 提供实时更新的排行榜,方便研究者对比不同模型在复杂指令执行和环境交互中的准确性。

适用于大模型研究人员、Agent 应用开发者及 AI 系统架构师,用于衡量不同 LLM 在构建自动化智能体过程中的综合推理与执行能力。