langfengQ/verl-agent

verl-agent is an extension of veRL, designed for training LLM/VLM agents via RL. verl-agent is also the official code for paper "Group-in-Group Policy Optimization for LLM Agent Training"

agent-frameworkdeepseek-r1gigpogrpolarge-language-modelsllm-agentsllm-trainingreinforcement-learning

GAI 中文摘要

verl-agent 是基于 veRL 框架开发的扩展工具，专门用于通过强化学习训练大语言模型与视觉语言模型智能体。该项目旨在解决传统方法在处理超长周期、多轮交互任务时的局限性，提供高效的训练方案。

该框架采用与步骤无关的多轮滚动机制，实现了高度可定制的每步输入结构、历史记录管理及内存模块。项目内置了包括 GiGPO 在内的多种先进强化学习算法，能够有效支持长序列的策略优化。它提供了一套丰富的智能体仿真环境，涵盖了从文本处理到视觉理解的多样化任务场景。该代码库不仅是 GiGPO 算法的官方实现，还支持通过模块化设计轻松扩展智能体功能。

该项目适用于从事大模型强化学习研究的开发者及学术人员，特别适合需要构建超长视野多轮交互任务或复杂智能体系统的研发场景。

⭐

2.0k

Stars

🔱

189

Forks

👁

Watchers

📋

Issues

PythonApache-2.0创建于 2025/3/23更新于今天

在 GitHub 上查看访问主页

README

由 Gemini 翻译整理

Group-in-Group Policy Optimization (GiGPO) 用于 LLM Agent 训练

NeurIPS 2025

verl-agent 是 veRL 的一个扩展，专门设计用于通过强化学习 (RL) 训练大语言模型 (LLM) Agent。

与以往简单拼接完整交互历史的方法不同，verl-agent 提出了步级无关的多轮滚动（step-independent multi-turn rollout）机制，允许实现完全可定制的单步输入结构、历史记录管理和记忆模块。这种设计使得 verl-agent 在长跨度、多轮 RL 训练（例如 ALFWorld 中可能需要多达 50 步才能完成的任务）中具有极高的可扩展性。

verl-agent 提供了多种 RL 算法（包括我们新的 GiGPO 算法）和丰富的 Agent 环境库，支持在视觉和文本任务中开发推理 Agent。

新闻

[2026.05] GraphGPO 被 ICML 2026 接收！🎉🎉🎉 [论文] [代码]
[2026.02] HGPO 被 ICLR 2026 接收！🎉🎉🎉 [论文] [代码]
[2026.02] 🔥 开源了 Dr. MAS，支持多 Agent LLM 系统的稳定端到端 RL 后训练！ [论文] [代码]
[2025.12] 支持 Qwen3-VL！查看示例此处。
[2025.09] GiGPO 现已被 ROLL 支持！[文档] [训练曲线]。
[2025.09] verl-agent 风格的训练流水线现已被 OpenManus-RL 支持！
[2025.09] GiGPO 被 NeurIPS 2025 接收！🎉🎉🎉
[2025.08] 添加了 Search-R1 实验 和 基于相似度的 GiGPO！查看 GiGPO 在 Search-R1 实验中的卓越表现此处。
[2025.07] 7/11 在 LF AI & Data Singapore 主办的 Agent for SWE meetup 上进行了 GiGPO 和 verl-agent 的分享。
[2025.07] 添加了模块化内存管理器。查看此处。
[2025.06] 重大更新：合并了最新 veRL 的所有功能。例如，verl-agent 现在支持 Qwen3、LoRA、REINFORCE++ 等。欢迎探索！
[2025.05] 发布了 GiGPO 代码及论文。

功能快速概览

功能类别	支持的能力
交互	✅ 多轮 Agent-环境交互 ✅ 步级交互 ✅ 可扩展至长跨度任务
内存	✅ 完全可定制的内存模块 ✅ 灵活的历史管理
输入灵活性	✅ 完全可定制的单步输入结构
执行	✅ 并行 Gym 环境 ✅ 群组环境支持（用于基于群组的 RL）
模型支持	✅ Qwen3 ✅ Qwen3-VL ✅ Qwen2.5 ✅ Qwen2.5-VL ✅ LLaMA3.2 等
模态	✅ 纯文本 ✅ 文本 + 图像（多模态）
轻量级训练	✅ 支持 LoRA 训练
环境	✅ ALFWorld ✅ WebShop ✅ Search (工具调用) ✅ Sokoban ✅ Gym Cards ✅ AppWorld
RL 算法	✅ GiGPO ✅ GRPO ✅ PPO ✅ DAPO ✅ GSPO ✅ RLOO ✅ REINFORCE++ ✅ 支持动态采样与 clip-higher 等
Prompt Agent	✅ 基于 GPT-4o 的 Prompt Agent

langfengQ/verl-agent

Group-in-Group Policy Optimization (GiGPO) 用于 LLM Agent 训练

新闻

功能快速概览

框架比较

目录