walkinglabs/hands-on-modern-rl

🚀 An open-source, hands-on curriculum bridging the gap from basic RL concepts to LLM alignment, RLVR, and advanced Agentic systems.

agentagenticagentic-aiagentic-rldpogrpollmllm-alignmentpytorchreinforcemenrlhftutorial

GAI 中文摘要

hands-on-modern-rl 是一个注重实践的开源强化学习教程项目，旨在帮助学习者从经典的强化学习基础出发，逐步掌握大语言模型对齐、RLVR 以及先进智能体系统的构建方法。该项目通过将理论与代码实现深度绑定，有效缩短了从基础概念到前沿 AI 开发的跨度。

提供从经典控制算法到现代大模型训练算法的完整学习路径。深度解析 PPO、DPO、GRPO 等关键算法，通过代码映射将数学公式转化为可执行的程序。集成训练指标可视化工具，帮助用户实时观察训练曲线并掌握模型调试技巧。涵盖涵盖从强化学习基础、RLHF 到多模态智能体等前沿技术栈的系统化教学。

适用于想要深入理解强化学习原理并将其应用于大模型对齐与智能体开发的开发者及研究人员。特别适合希望从底层逻辑出发，动手构建现代智能系统并掌握行业前沿训练技术的学习者。

⭐

2.6k

Stars

🔱

157

Forks

👁

Watchers

📋

Issues

PythonNOASSERTION创建于 2026/4/10更新于今天

在 GitHub 上查看访问主页

README

由 Gemini 翻译整理

Hands-On Modern RL (现代强化学习实战)

这是一个以实践为先的现代强化学习指南，涵盖从经典控制到 LLM 后训练、RLVR 以及多模态智能体的内容。

English · 中文

微信交流群

课程预览 · 概述 · 动态新闻 · 内容概览 · 课程大纲 · 实验代码 · 快速开始 · 贡献指南

课程预览


清晰的学习路径从序言和基础到前沿课题，章节树和页面大纲助你快速导航。	逐行代码研读 PPO、DPO 和 GRPO 的核心实现均配有代码导图，将数学公式与可读代码一一对应。
训练指标可视化真实曲线、指标解释与失败信号并列呈现，助你在运行实验的同时进行调试。	LLM 后训练流水线将 RLHF、DPO、GRPO、RLVR 及相关课题通过流程、工件（Artifacts）和案例串联起来。
智能体 RL 实验复现 DeepCoder 风格的 GRPO 训练曲线，深入理解工具调用智能体、响应长度与奖励动态。	Atari 游戏实验通过 Atari Pong 游戏截图和 DQN 训练笔记，展示像素级智能体如何将屏幕输入转化为决策。

[!NOTE] 我们希望这门开源课程能激励更多学习者攀登智能前沿，解决通往 AGI 之路上更多棘手的难题。

课程正在快速演进中。建议重点关注未标记“建设中”的章节；进行中的章节可能存在错误，欢迎提交修正建议。

招募 GPU 资源

由于计算资源有限，我们正在寻求 GPU 支持。如果您能提供帮助，请联系 physicoada@gmail.com。

概述

Hands-On Modern RL 是一门通过实践学习现代强化学习（RL）的开源课程。本课程摒弃了“先公式，后黑盒 API”的传统路径，采用**实践优先（Practice-first）**的方法：学习者从可运行的代码和可观测的训练行为入手，通过具体的运行轨迹来理解状态、价值函数、策略梯度、奖励建模、信用分配以及 RL 背后的数学结构。

本课程跨越了经典控制，并直接对接当前 AI 前沿，包括大语言模型（LLM）后训练、基于 DPO 和 GRPO 的偏好对齐、可验证奖励的强化学习（RLVR）、多轮工具调用智能体、智能体 RL（Agentic RL）以及视觉语言模型（VLM）强化学习。

我们的目标是提供一把坚实的阶梯：从完成第一个 CartPole 任务，到构建现代化的后训练和智能体系统。

设计原则

本课程围绕以下工程与教学原则组织：

先实践，后形式化。 每个主要课题都从实验、指标、失败案例或实现细节出发，随后再引入数学抽象。
理论解释行为。 MDP、贝尔曼方程、策略梯度、GAE、PPO 裁剪、DPO 目标函数和 GRPO 组优势函数等，都被作为解释代码行为的工具引入。
现代 RL 超越经典 RL。 课程涵盖经典控制和深度 RL，进而深入到 RLHF、偏好优化、RLVR、VLM 强化学习以及多轮智能体训练。
调试至上。 训练崩溃、奖励欺骗（Reward Hacking）、KL 漂移、熵衰减、OOM 故障和评估盲点被视为核心教学内容。
可读系统优于黑盒。 示例倾向于显式实现、可检查的指标和清晰的实验边界，方便学习者进行修改和扩展。

目标受众

本课程适合那些希望通过构建和观察工作系统来理解强化学习的学习者。

特别适用于：

从监督学习转向 RL 的机器学习工程师。
准备阅读现代 RL 和对齐论文的研究人员及学生。
对 RLHF、DPO、GRPO、RLVR 和后训练系统感兴趣的 LLM 从业者。
工具调用智能体、Web 智能体、代码智能体及评估流水线的开发者。
倾向于先通过代码、实验和视觉直觉，再深入理解推导过程的自学者。

推荐背景：

具备 Python 编程经验。
熟悉基本的 PyTorch。
具备机器学习所需的线性代数、概率论和微积分基础。
具备阅读论文和跟踪开源训练代码的能力。