xingyaoww/code-act

Official Repo for ICML 2024 paper "Executable Code Actions Elicit Better LLM Agents" by Xingyao Wang, Yangyi Chen, Lifan Yuan, Yizhe Zhang, Yunzhu Li, Hao Peng, Heng Ji.

llmllm-agentllm-finetuningllm-framework

GAI 中文摘要

CodeAct 是一个旨在统一大语言模型（LLM）智能体动作空间的研究项目，通过将可执行代码作为智能体的核心交互语言来替代传统的文本或 JSON 格式。该方案有效解决了智能体在执行复杂任务时指令理解偏差和交互效率低下的问题，大幅提升了模型完成任务的成功率。

该项目引入了将可执行代码作为统一动作空间的交互框架，使智能体能通过代码执行结果进行动态自我修正。配套发布了名为 CodeActInstruct 的大规模指令微调数据集，包含七千条多轮交互数据以增强模型的任务执行能力。提供了基于 Mistral-7b 构建的专用 Agent 模型，在保持通用对话能力的同时显著提升了领域外任务的表现。支持多种部署方式，包括 Ollama、llama.cpp 以及基于 Kubernetes 的集群部署方案，方便开发者在不同硬件环境进行集成与测试。

该项目适用于研究大语言模型智能体架构及指令微调的开发者与科研人员，特别适合需要构建高性能自动化任务处理、数据分析或复杂交互型 Agent 的应用场景。

⭐

1.7k

Stars

🔱

138

Forks

👁

Watchers

📋

Issues

PythonMIT创建于 2024/1/13更新于今天

在 GitHub 上查看

README

由 Gemini 翻译整理

Executable Code Actions Elicit Better LLM Agents (可执行代码操作助力更优秀的 LLM Agent)

📃 论文 • 🤗 数据集 (CodeActInstruct) • 🤗 模型 (CodeActAgent-Mistral-7b-v0.1) • 🤖 与 CodeActAgent 聊天！

我们提出使用可执行的代码将 LLM Agent 的操作整合到一个统一的动作空间（CodeAct）中。通过集成 Python 解释器，CodeAct 能够执行代码操作，并在多轮交互过程中根据新的观察结果（如代码执行输出）动态修正之前的操作或发出新的动作（查看此示例！）。

新闻

2024年4月10日: CodeActAgent Mistral 现已正式发布于 ollama！

2024年3月11日: 我们增加了对 llama.cpp 的支持，以便在笔记本电脑上运行 CodeActAgent 推理（已在 MacOS 上测试），请查看此处说明！

2024年3月11日: 我们现在支持通过 Kubernetes ⎈ 部署 CodeActAgent 的所有组件（LLM Serving、代码执行器、MongoDB、Chat-UI）！请查看此指南！

2024年2月2日: CodeAct 正式发布！

为什么选择 CodeAct？

我们对 API-Bank 以及新整理的基准测试 M3ToolEval 中的 17 个 LLM 进行了广泛分析，结果表明 CodeAct 的表现优于广泛使用的 Text 和 JSON 等方案（成功率最高提升 20%）。详情请参阅我们的论文！

作为操作方式时，CodeAct 与 Text/JSON 的对比。

CodeAct 与 Text/JSON 的对比 在 M3ToolEval 上对比 CodeAct 与 {Text, JSON} 的量化结果。

📁 CodeActInstruct

我们收集了一个指令微调数据集 CodeActInstruct，包含 7,000 条使用 CodeAct 的多轮交互数据。数据集已发布在 HuggingFace 🤗。有关数据收集的详细信息，请参阅论文及本章节。

数据统计 数据集统计。Token 统计使用 Llama-2 分词器计算。

🪄 CodeActAgent

CodeActAgent 在 CodeActInstruct 和通用对话数据上进行了训练。与同规模的开源模型相比，它在领域外（Out-of-domain）的 Agent 任务中表现出色，且没有牺牲通用性能（如知识、对话能力）。我们发布了两个版本的 CodeActAgent：

CodeActAgent-Mistral-7b-v0.1（推荐，模型链接）：以 Mistral-7b-v0.1 为基座模型，支持 32k 上下文窗口。
CodeActAgent-Llama-7b（模型链接）：以 Llama-2-7b 为基座模型，支持 4k 上下文窗口。

模型性能 CodeActAgent 的评估结果。ID 和 OD 分别代表领域内（In-domain）和领域外（Out-of-domain）评估。整体平均性能将 MT-Bench 分数标准化，以便与其他任务保持一致，并排除了领域内任务以进行公平比较。

请查看 :page_with_curl: 我们的论文以获取关于数据收集、模型训练、评估等的更多详细信息！

🚀 将 CodeActAgent 用于你的应用！

聊天界面演示。

CodeActAgent 系统包含以下组件：

LLM Serving: 我们以 vLLM 为例，但任何能够将模型发布为兼容 OpenAI API 的服务软件均可。
交互界面:
- Chat-UI（聊天界面）+ MongoDB（聊天记录）
- 或简单的 Python 脚本
代码执行引擎: 该服务会启动一个 API，用于接收来自 Chat-UI 或 Python 脚本的代码执行请求，并为每个聊天会话启动独立的 Docker 容器来执行代码。

🌟 如果你有 Kubernetes 集群: 你可以按照我们的 Kubernetes 设置指南操作，通过一条命令启动所有组件！

按照以下指南使用 Docker 进行设置：

将模型发布为兼容 OpenAI 的 API

使用 Docker 部署 VLLM（需要 nvidia-docker）

# 你需要先下载模型，以下是 CodeActAgent-Mistral 的示例
cd $YOUR_DIR_TO_DOWNLOADED_MISTRAL_MODEL
git lfs install
git clone https://huggingface.co/xingyaoww/CodeActAgent-Mistral-7b-v0.1
./scripts/chat/start_vllm.sh $YOUR_DIR_TO_DOWNLOADED_MISTRAL_MODEL/CodeActAgent-Mistral-7b-v0.1
# 或者
# ./scripts/chat_ui/start_vllm.sh $YOUR_DIR_TO_DOWNLOADED_LLAMA_MODEL/CodeActAgent-Llama-7b

此脚本（需要 Docker）将根据 CUDA_VISIBLE_DEVICES 将模型托管到 8080 端口，你可以通过 OpenAI API 访问该模型。