verl-agent is an extension of veRL, designed for training LLM/VLM agents via RL. verl-agent is also the official code for paper "Group-in-Group Policy Optimization for LLM Agent Training"
verl-agent 是基于 veRL 框架开发的扩展工具,专门用于通过强化学习训练大语言模型与视觉语言模型智能体。该项目旨在解决传统方法在处理超长周期、多轮交互任务时的局限性,提供高效的训练方案。
该框架采用与步骤无关的多轮滚动机制,实现了高度可定制的每步输入结构、历史记录管理及内存模块。项目内置了包括 GiGPO 在内的多种先进强化学习算法,能够有效支持长序列的策略优化。它提供了一套丰富的智能体仿真环境,涵盖了从文本处理到视觉理解的多样化任务场景。该代码库不仅是 GiGPO 算法的官方实现,还支持通过模块化设计轻松扩展智能体功能。
该项目适用于从事大模型强化学习研究的开发者及学术人员,特别适合需要构建超长视野多轮交互任务或复杂智能体系统的研发场景。