RAGEN leverages reinforcement learning to train LLM reasoning agents in interactive, stochastic environments.
RAGEN 是一个基于强化学习的灵活框架,旨在训练具备深度推理能力的大型语言模型智能体。该项目致力于通过诊断工具分析智能体在训练过程中的失效模式,从而解决强化学习训练中常见的训练不稳定及推理崩溃问题。
该框架采用 StarPO 统一优化算法,支持多轮对话与轨迹级别的智能体训练。内置包含 Sokoban、WebShop、Lean 等在内的 10 种交互式随机环境,并兼容 Gym 接口以方便用户扩展自定义环境。引入了全新的 SNR 自适应过滤机制,通过奖励方差分析实现轻量级的轨迹筛选。提供全面的实验日志与文档支持,帮助用户精细化控制推理过程、奖励分配及提示词部署结构。
该项目适用于从事 LLM 推理研究的科研人员和开发者,特别适合在需要处理复杂逻辑、多步推理或交互式任务的场景中,用于优化智能体的训练流程并提升模型表现。