AgentBench

🌐 排行榜 (new) | 🐦 Twitter | ✉️ Google Group | 📃 论文

👋 加入我们的 Slack 频道，进行交流或参与 AgentBench 下一版本的合作开发！

🔥[2025.10.10] 基于 AgentRL 推出 AgentBench FC (Function Calling)

当前仓库包含 AgentBench 的 Function Calling 版本，并集成了 [AgentRL] (一个端到端的多任务、多轮 LLM Agent 强化学习框架)。如果您希望使用旧版本，可以回退至 v0.1 或 v0.2。

与最初的 AgentBench 相比，此版本采用了 Function Calling 风格的提示词（prompt），并为以下任务增加了完全容器化的部署支持：

alfworld (AF)
dbbench (DB)
knowledgegraph (KG)
os_interaction (OS)
webshop (WS)

快速开始

我们支持使用 Docker Compose 对上述所有任务进行一键式快速配置。

开始之前，请下载或构建任务所需的以下 Docker 镜像：

# dbbench
docker pull mysql:8

# os_interaction
docker build -t local-os/default -f ./data/os_interaction/res/dockerfiles/default data/os_interaction/res/dockerfiles
docker build -t local-os/packages -f ./data/os_interaction/res/dockerfiles/packages data/os_interaction/res/dockerfiles
docker build -t local-os/ubuntu -f ./data/os_interaction/res/dockerfiles/ubuntu data/os_interaction/res/dockerfiles

要运行 KG Freebase 服务器，您还需要一份数据副本，可从此处获取。下载并解压后，将数据放置在 ./virtuoso_db/virtuoso.db（或者修改 extra/docker-compose.yml 并将挂载点指向您的数据位置）。

然后，可以使用以下命令启动服务栈：

docker compose -f extra/docker-compose.yml up

此命令将下载或构建必要的 Docker 镜像，并在 Docker 中启动以下服务：

AgentRL Controller
alfworld 任务工作节点 (x1，可按需增加)
dbbench 任务工作节点 (x1，可按需增加)
knowledgegraph 任务工作节点 (x1，可按需增加)
os_interaction 任务工作节点 (x1，可按需增加)
webshop 任务工作节点 (x1，可按需增加)
freebase 服务器 (用于 knowledgegraph 任务)
Redis 服务器 (用于容器分配)

如果您的机器上已经运行了 Redis (7.0 以上版本)，则可以从 docker-compose.yml 中省略 Redis 服务。

[!WARNING]
请注意，webshop 环境启动需要约 16GB 的内存，且当前的 alfworld 实现存在内存和磁盘空间泄漏问题，直到任务工作节点重启为止。运行前请确保您的机器资源充足。

基准测试结果

我们在 AgentBench FC 的测试集上报告了各种模型的结果。

请参阅我们的排行榜查看完整结果。如果您有任何疑问或希望贡献您的测试结果，请联系 agentbench_fc@googlegroups.com。

🔥[2024.08.13] 推出 VisualAgentBench

VisualAgentBench 旨在评估和训练基于多模态大模型 (LMMs) 的视觉基础 Agent。我们引入了 5 个不同的环境，涵盖：

具身智能 (Embodied): VAB-OmniGibson, VAB-Minecraft
图形界面 (GUI): VAB-Mobile, VAB-WebArena-Lite
视觉设计 (Visual Design): VAB-CSS

以系统地基准测试 17 个 LMMs (闭源和开源 LMMs)。我们还提供了用于开源 LMMs 行为克隆训练的轨迹数据集，方便您开发自己的视觉基础 Agent！

以下是原始 AgentBench (v0.2) 的介绍。

AgentBench: 评估 LLM 作为 Agent 的能力

https://github.com/THUDM/AgentBench/assets/129033897/656eed6e-d9d9-4d07-b568-f43f5a451f04

AgentBench 是首个旨在评估 LLM-as-Agent（LLM 作为智能体）在各种不同环境中表现的基准测试。它包含 8 个独特的环境，以更全面地评估 LLM 在各种场景下作为自主智能体的操作能力。这些环境包括 5 个全新创建的领域：

操作系统 (OS)
数据库 (DB)
知识图谱 (KG)
数字纸牌游戏 (DCG)
横向思维谜题 (LTP)

以及 3 个从已发表的数据集重新编译的领域：

居家生活 (HH) (ALFWorld)
网络购物 (WS) (WebShop)
网页浏览 (WB) (Mind2Web)