A live stream development of RL tunning for LLM agents
OpenManus-RL 是一个由 UIUC Ulab 与 MetaGPT 联合发起的开源项目,旨在探索基于强化学习(RL)的智能体微调新范式。该项目通过整合前沿的强化学习训练框架,致力于提升大型语言模型在智能体推理能力和工具集成方面的表现,并以直播式的动态更新方式共享研究进展。
集成了 verl 子模块以支持增强的强化学习训练能力,为复杂的智能体任务提供高效的训练架构。
提供开放的智能体 SFT 数据集,助力社区研究人员进行模型微调与数据分析。
通过在 GAIA、AgentBench、WebShop 及 OSWorld 等主流智能体基准测试中进行严谨验证,确保模型性能的可靠性。
探索多种核心技术路径,涵盖奖励模型训练、推理模型探索、替代回放策略以及测试时轨迹扩展等关键领域。
该项目适合对强化学习驱动的智能体开发感兴趣的研究人员与开发者,特别适用于需要提升 LLM 在复杂任务中推理与工具调用能力的科研与工程场景。