THUDM/AgentTuning

AgentTuning: Enabling Generalized Agent Abilities for LLMs

GAI 中文摘要

AgentTuning 是一个通过在多任务交互轨迹上进行指令微调，旨在赋予大语言模型通用智能体能力的开源框架。该项目有效提升了模型在未见任务中的泛化表现，同时确保了模型原始语言处理能力的稳健性。

该项目提供了包含 1866 条高质量交互数据的 AgentInstruct 数据集，用于全面增强 AI 智能体的任务处理能力。数据集通过 ReAct 框架引入思维链技术，确保模型能够清晰解释决策过程并具备深度推理能力。 AgentInstruct 覆盖了从日常生活到数据库操作等 6 类真实场景，显著提升了模型应对多样化任务的灵活性。项目采用严格的奖励机制对训练数据进行过滤，确保数据的高质量并有效避免了数据泄露风险。通过混合训练生成的 AgentLM 系列模型，在保持通用语言能力的同时，大幅增强了模型作为智能体的操作表现。

AgentTuning 适用于需要提升大语言模型自主规划、工具使用和任务执行能力的开发者与研究人员。它尤其适合希望在复杂真实场景（如自动化工作流、数据库交互）中部署高性能 AI 智能体的应用开发。

⭐

1.5k

Stars

🔱

106

Forks

👁

Watchers

📋

Issues

Python创建于 2023/10/18更新于今天

在 GitHub 上查看访问主页

README

由 Gemini 翻译整理

AgentTuning：为 LLM 赋予通用智能体能力

🤗 模型 (AgentLM-70B) • 🤗 数据集 (AgentInstruct) • 📃 论文 • 🌐 项目主页

中文版(Chinese)

AgentTuning 是首次尝试使用跨多种智能体任务的交互轨迹对 LLM 进行指令微调（Instruction-tune）的研究。评估结果表明，AgentTuning 在保持强大的通用语言能力的同时，使 LLM 具备了在未见过的智能体任务上进行稳健泛化的能力。我们已开源 AgentInstruct 数据集和 AgentLM 模型。

主要结果

图 1 在我们的内部（held-in）和外部（held-out）任务中的总分

AgentInstruct

AgentInstruct 是一个精心策划的数据集，包含 1,866 条高质量交互，旨在提升 AI 智能体在 6 个不同现实世界任务中的表现。

🔍 CoT (思维链) - 利用 ReAct 的能力，为每个动作提供详细的思考解释，确保对模型决策过程的深入理解。
🌍 多样性 - 涵盖从日常生活常规到数据库操作等 6 个现实场景，交互轮数平均在 5 到 35 轮之间。
🎯 精确性 - 并非所有 GPT-4 的轨迹都有效！我们的数据经过严格的奖励机制筛选，以确保顶级质量。
✅ 保证 - 经过严格检查以避免数据泄露，确保数据集的纯净质量。

AgentInstruct 数据集可在 🤗Huggingface Repo 获取。

AgentLM

AgentLM 模型是通过在 AgentInstruct 数据集和 Llama2-chat 系列的 ShareGPT 数据集上进行混合训练产生的。

这些模型遵循 Llama-2-chat 的对话格式，系统提示词（System prompt）固定为 You are a helpful, respectful and honest assistant.。

7B、13B 和 70B 模型均已在 Huggingface 模型库发布。

模型	Huggingface 仓库
AgentLM-7B	🤗Huggingface Repo
AgentLM-13B	🤗Huggingface Repo
AgentLM-70B	🤗Huggingface Repo

运行 AgentLM

我们使用 Text-Generation-Inference 来加速评估过程。

你可以使用以下命令启动 AgentLM-70b 实例：

cd docker
docker compose -f agentlm-70b.yml up

执行成功后，客户端将在端口 30070 上可用。以下是发起请求的示例：

curl 127.0.0.1:30070/generate \
    -X POST \
    -H 'Content-Type: application/json' \
    -d '{"inputs": "[INST] >\nYou are a helpful, respectful and honest assistant.\n>\n\nHello! [/INST]", "parameters":{"temperature": 1.0}}'

# {"generated_text":"Hello! How can I help you today? "}

如果有更多的 GPU 可用，你可以复制 Docker Compose 文件中的服务来创建多个推理实例。

评估

以下是我们评估任务的详细信息，包括 6 个内部任务（held-in tasks）和 6 个外部任务（held-out tasks）。

内部任务 (Held-in Tasks)

这 6 个内部任务选自 AgentBench。然而，由于 AgentBench 仍处于活跃开发阶段，最新分支的结果可能无法完全复现论文中报告的结果。该项目的评估代码位于 ./AgentBench.old。

外部任务 (Held-out Tasks)

外部任务是从以下框架重新编译的：

任务	AgentTuning 设置	原仓库
SciWorld	📂 eval_heldout/science-world	💻 allenai/ScienceWorld
MiniWoB++	📂 eval_heldout/miniwob++	💻 Farama-Foundation/miniwob-plusplus
HotpotQA	📂 eval_heldout/hotpotQA	💻 salesforce/BOLAA
ReWOO	📂 eval_heldout/rewoo	💻 billxbf/ReWOO
WebArena	📂 eval_heldout/webarena	💻 web-arena-x/webarena
Digital Card Game	💻 AgentBench.old ( Extend Split )	💻 THUDM/AgentBench

通用任务

MMLU 设置：

将 14k 多项选择题下载到 ./data：