verl-agent is an extension of veRL, designed for training LLM/VLM agents via RL. verl-agent is also the official code for paper "Group-in-Group Policy Optimization for LLM Agent Training"
verl-agent 是基于 veRL 框架开发的扩展工具,专门用于通过强化学习训练大型语言模型(LLM)和视觉语言模型(VLM)智能体。该项目提出了创新的分步独立多轮执行机制,有效解决了长序列、多步决策任务中强化学习训练的复杂性和扩展性难题。
该框架支持步级独立的多轮执行,允许用户高度自定义每一步的输入结构、历史记录管理及内存模块。内置多种先进的强化学习算法(如 GiGPO),能够有效支撑长周期、复杂逻辑任务的训练需求。系统兼容丰富的智能体运行环境,支持文字及视觉任务的推理能力开发。通过优化的架构设计,实现了针对超长视野任务的高效训练,显著提升了智能体处理复杂交互序列的能力。
该项目适用于从事大模型强化学习算法研究的学术人员及开发者,特别是在需要训练具备复杂推理能力或多步规划能力的 LLM/VLM 智能体时,提供了一套高效、可扩展的实验与训练基础设施。