AgentR1/Agent-R1

Agent-R1: Training Powerful LLM Agents with End-to-End Reinforcement Learning

agentagentic-rlllm

GAI 中文摘要

Agent-R1 是一个基于端到端强化学习的统一模块化框架，旨在构建高性能的多步大语言模型智能体。该框架通过将交互建模为步级马尔可夫决策过程，有效解决了传统智能体训练中工具调用、环境状态管理及策略优化协同困难的问题。

支持以步级马尔可夫决策过程为基础的端到端强化学习训练流程。内置模块化架构，能够实现对工具调用、环境反馈及任务终止条件的显式控制。集成 StepPO 等多种先进的训练算法，支持多样化的策略优化方案。提供针对 HotpotQA、ALFWorld、WebShop 及学术搜索等复杂任务的预置训练配方。具备良好的扩展性，支持通过中间件设计将智能体能力拓展至通用机器人或自定义环境。

该项目适用于从事大模型智能体开发、强化学习算法研究以及需要构建复杂任务处理能力的 AI 开发人员。主要使用场景包括训练具备自主决策与工具使用能力的智能体，以及在科学研究、自动化交互任务中进行长序列决策的优化。

⭐

1.4k

Stars

🔱

Forks

👁

Watchers

📋

Issues

PythonMIT创建于 2025/3/4更新于今天

在 GitHub 上查看

README

由 Gemini 翻译整理

Agent-R1: 通过端到端强化学习训练强大的 LLM Agent

Agent-R1 是一个用于**智能体强化学习（Agentic Reinforcement Learning）**的统一模块化框架。它通过基于步骤（step-native）的 RL 循环训练多步 LLM Agent，其中模型观察环境、生成动作、接收工具或环境反馈，并持续进行直至任务解决或终止。

与将交互视为一个不断增长的“提示-响应”序列的单轮 RL 流水线不同，Agent-R1 将每一轮交互建模为步骤级 MDP 转换（step-level MDP transition）。这使得工具使用、环境状态、上下文管理、奖励分配和策略优化成为同一训练基底中明确的组成部分。

新闻动态

[2026.05.29] Agent-R1 集成了 StepPO，扩展了方案覆盖范围，并发布了处理后的数据。 该框架现已包含 StepPO 风格的训练支持，以及针对 HotpotQA、ALFWorld、WebShop 和学术论文搜索的方案集成。处理后的数据集可在 ModelScope 上获取。
[2026.03.23] Agent-R1 v0.1.0 是重构架构后的首个正式版本。 它引入了步骤级 MDP 基础和新的分层抽象（Layered Abstractions）。之前的实现已归档至 legacy 分支。
[2026.03.04] Claw-R1 发布。 通过中间件风格的设计，将智能体 RL 扩展到通用智能体（如 OpenClaw）。详见 AgentR1/Claw-R1。

早期更新

[2026.01.10] PaperScout 发布：一个使用 Agent-R1 和近端序列策略优化（Proximal Sequence Policy Optimization）训练的自主学术论文搜索智能体。点击此处阅读论文。
[2025.11.18] Agent-R1 技术报告在 arXiv 上发布。
[2025.05.06] 工具环境经过重新设计，以支持更灵活的智能体-工具交互模式。
[2025.05.06] 修复了因 NaN 值导致的 GRPO 和 REINFORCE 训练崩溃问题。详见 issue #30。
[2025.04.01] 添加了基础推理脚本和交互式聊天界面。
[2025.03.18] 增加了对多模态视觉语言模型智能体的支持。
[2025.03.18] verl 被移至 git 子模块，Agent-R1 扩展与上游代码分离。
[2025.03.16] 支持了针对工具调用反馈的流程奖励（Process rewards）。

为什么选择 Agent-R1

现代 LLM 基础设施已经拥有强大的服务系统（如 vLLM 和 SGLang）以及强大的分布式训练系统（如 DeepSpeed、FSDP 和 Megatron-LM）。智能体 RL 需要将这两者重新连接成一个 Rollout（采样） -> Reward（奖励） -> Replay（回放） -> Update（更新） 循环，在该循环中，模型在多轮交互中与工具和环境进行交互。

Agent-R1 的核心设计目标有三点：

步骤级轨迹表示（Step-level trajectory representation）：每个转换存储观察、动作、环境反馈、奖励、终止状态和下一次观察，同时保留动作边界，避免脆弱的 Token -> Text -> Token 重构。
灵活的上下文管理（Flexible context management）：由环境决定模型接下来看到的内容，因此历史记录可以被追加、截断、总结、重写或增强。
算法与系统解耦（Algorithm-system decoupling）：任务工作流、环境、Rollout、奖励、优势估计器和策略目标可以独立演进。

核心理念：步骤级 MDP

在多轮智能体训练中，模型不仅仅是在续写 token 序列。模型的每一次输出都可以调用工具、改变环境状态、接收外部反馈并塑造下一次观察。因此，Agent-R1 将**智能体步骤（agent step）**视为基本的交互单元：一个步骤记录了模型看到的内容、它产生的动作、环境返回的反馈和奖励，以及接下来应该暴露给模型的观察。这种步骤级轨迹表示使 Rollout、回放、上下文构建和信用分配与智能体的真实决策保持一致，同时仍允许在每个生成的动作内部进行 token 级的策略损失计算。

架构

Agent-R1 使用分层抽象，以便新任务可以重用相同的训练器，而无需重写整个 RL 堆栈。

层级	职责	适用场景
`AgentFlowBase`	对提示构建、模型调用、分支、上下文管理和步骤组装拥有完全控制权。	不适合标准环境循环的复杂自定义智能体。
`AgentEnvLoop`	连接模型生成与环境 `reset()` / `step()` 接口的通用循环。	可建模为环境交互的智能体任务，包括传统的 RL 风格环境。
`AgentEnv`	返回观察、奖励、终止状态和元数据的任务环境接口。	实现 `AgentEnvLoop` 的完整环境逻辑。
`ToolEnv`	内置环境，用于...	...