RAGEN leverages reinforcement learning to train LLM reasoning agents in interactive, stochastic environments.
RAGEN 是一个基于强化学习的灵活框架,旨在训练具备推理能力的智能体以适应交互式和随机环境。该项目通过提供深度诊断工具,帮助开发者深入理解智能体训练过程,并有效修复训练中出现的隐蔽问题。
该框架采用 StarPO 统一优化方案,支持多轮轨迹级别的智能体训练与灵活的控制策略。内置了包含 WebShop、Sudoku、Lean 等在内的十个主流标准训练环境。支持 Gym 兼容接口,方便用户快速接入并自定义各类外部环境。RAGEN-2 版本引入了基于奖励方差的 SNR 自适应过滤机制,能够有效降低噪声梯度更新带来的干扰。内置推理坍塌诊断工具,通过互信息代理指标实时监测训练过程中的模式坍塌现象。
该项目适用于研究大语言模型智能体训练、致力于提升强化学习训练稳定性的 AI 工程师与学术研究人员。主要使用场景包括解决多步推理任务、开发定制化交互式智能体,以及对智能体训练失败模式进行深度诊断与调优。