© 2026FindAgent  · @simprr
返回列表
l

langfengQ/verl-agent

verl-agent is an extension of veRL, designed for training LLM/VLM agents via RL. verl-agent is also the official code for paper "Group-in-Group Policy Optimization for LLM Agent Training"

agent-frameworkdeepseek-r1gigpogrpolarge-language-modelsllm-agentsllm-trainingreinforcement-learning
⭐

1.7k

Stars

🔱

158

Forks

👁

7

Watchers

📋

56

Issues

PythonApache-2.0创建于 2025/3/23更新于 今天
在 GitHub 上查看访问主页
README
由 Gemini 翻译整理

Group-in-Group 策略优化:用于 LLM Agent 训练

NeurIPS 2025

verl-agent 是 veRL 的一个扩展,专门用于通过强化学习 (RL) 训练大语言模型 (LLM) Agent。

与以往简单拼接完整交互历史的方法不同,verl-agent 提出了分步独立的动态 Rollout 机制,支持用户完全自定义单步输入结构、历史记录管理和记忆模块。这一设计使得 verl-agent 在超长序列、多轮 RL 训练(例如 ALFWorld 任务可能需要长达 50 步才能完成)中具有极高的可扩展性。

verl-agent 提供了一套多样化的 RL 算法(包括我们的新算法 GiGPO)以及丰富的 Agent 环境库,助力在视觉和文本任务中开发推理型 Agent。

新闻

  • [2026.02] HGPO 被 ICLR 2026 收录!🎉🎉🎉 [论文] [代码]
  • [2026.02] 🔥 我们开源了 Dr. MAS,支持多 Agent LLM 系统的稳定端到端 RL 后训练![论文] [代码]
  • [2025.12] 支持 Qwen3-VL!示例参考 此处。
  • [2025.09] GiGPO 现已由 ROLL 支持![文档] [训练曲线]。
  • [2025.09] OpenManus-RL 现已支持 verl-agent 风格的训练流水线!
  • [2025.09] GiGPO 被 NeurIPS 2025 收录!🎉🎉🎉
  • [2025.08] 增加 Search-R1 实验 和 基于相似度的 GiGPO!查看 GiGPO 在 Search-R1 实验中的卓越表现 此处。
  • [2025.07] LF AI & Data Singapore 于 7 月 11 日在 Agent for SWE meetup 活动中对 GiGPO 与 verl-agent 进行了主题分享。
  • [2025.07] 增加模块化记忆管理器。详情见 此处。
  • [2025.06] 重大更新:合并了最新 veRL 的所有功能。例如,verl-agent 现已支持 Qwen3、LoRA、REINFORCE++ 等。欢迎探索!
  • [2025.05] 发布代码及 GiGPO 相关论文。

功能特性概览

功能类别支持的能力
交互✅ 多轮 Agent-环境交互 ✅ 分步交互 ✅ 可扩展长序列任务
记忆✅ 完全可自定义的记忆模块 ✅ 灵活的历史管理
输入灵活性✅ 完全可自定义的单步输入结构
执行✅ 并行 Gym 环境 ✅ 支持组环境(用于基于组的 RL)
模型支持✅ Qwen3 ✅ Qwen3-VL ✅ Qwen2.5 ✅ Qwen2.5-VL ✅ LLaMA3.2 等
模态✅ 纯文本 ✅ 文本 + 图像(多模态)
轻量级训练✅ 支持 LoRA 训练
环境✅ ALFWorld ✅ WebShop ✅ Search (工具调用) ✅ Sokoban ✅ Gym Cards ✅ AppWorld
RL 算法✅ GiGPO ✅ GRPO ✅ PPO ✅ DAPO ✅ GSPO ✅ RLOO ✅ REINFORCE++ ✅ 动态采样 & clip-higher 等
Prompt Agent✅ 基于 GPT-4o 的 Prompt Agent

框架对比

目录

  • 关键特性
  • 结果
  • 安装
    • 安装 veRL
    • 安装支持的环境
      • 1. ALFWorld
      • 2. WebShop
      • 3. Search
      • 4. Sokoban
      • 5. Gym Cards
      • 6. AppWorld (实验性)
  • 运行示例
    • RL 训练
      • 1. GiGPO
      • 2. GRPO
      • 3. PPO
      • 4. RLOO
      • 5. DAPO
      • 6. GiGPO (动态)
    • LoRA
    • 基于 GPT-4o 的 Prompt Agent
  • 常见问题 (FAQ)
    • 1. 自定义记忆模块
    • 2. 数据准备
    • 3. 自定义 Prompt
    • 4. 添加新环境
  • 贡献
  • 致谢
  • 基于 verl-agent 和 GiGPO 的优秀工作
  • 引用
  • Star 历史

关键特性

贡献者
lePvEhwBtz
项目信息
默认分支master
LicenseApache License 2.0
创建时间2025/3/23
最近更新今天
GAI 中文摘要

verl-agent 是基于 veRL 框架开发的扩展工具,专门用于通过强化学习训练大型语言模型(LLM)和视觉语言模型(VLM)智能体。该项目提出了创新的分步独立多轮执行机制,有效解决了长序列、多步决策任务中强化学习训练的复杂性和扩展性难题。

该框架支持步级独立的多轮执行,允许用户高度自定义每一步的输入结构、历史记录管理及内存模块。内置多种先进的强化学习算法(如 GiGPO),能够有效支撑长周期、复杂逻辑任务的训练需求。系统兼容丰富的智能体运行环境,支持文字及视觉任务的推理能力开发。通过优化的架构设计,实现了针对超长视野任务的高效训练,显著提升了智能体处理复杂交互序列的能力。

该项目适用于从事大模型强化学习算法研究的学术人员及开发者,特别是在需要训练具备复杂推理能力或多步规划能力的 LLM/VLM 智能体时,提供了一套高效、可扩展的实验与训练基础设施。