🚀 An open-source, hands-on curriculum bridging the gap from basic RL concepts to LLM alignment, RLVR, and advanced Agentic systems.
hands-on-modern-rl 是一个注重实践的开源强化学习教程项目,旨在帮助学习者从经典的强化学习基础出发,逐步掌握大语言模型对齐、RLVR 以及先进智能体系统的构建方法。该项目通过将理论与代码实现深度绑定,有效缩短了从基础概念到前沿 AI 开发的跨度。
提供从经典控制算法到现代大模型训练算法的完整学习路径。 深度解析 PPO、DPO、GRPO 等关键算法,通过代码映射将数学公式转化为可执行的程序。 集成训练指标可视化工具,帮助用户实时观察训练曲线并掌握模型调试技巧。 涵盖涵盖从强化学习基础、RLHF 到多模态智能体等前沿技术栈的系统化教学。
适用于想要深入理解强化学习原理并将其应用于大模型对齐与智能体开发的开发者及研究人员。特别适合希望从底层逻辑出发,动手构建现代智能系统并掌握行业前沿训练技术的学习者。