现代RL教程发布

强化学习教程 Hands on Modern RL
在线阅读：walkinglabs.github.io/hands-on-modern-rl/
中英双语，看评价反馈都不错。
“市面上的学习资源严重滞后于行业实践。主流教程对 RL 一笔带过，专门的 RL 教材又停留在传统框架，对 PPO、DPO、GRPO 只字不提。一个想要理解 RLHF 流程的工程师，不得不在经典教材和最新论文之间艰难地自行搭建桥梁。我们着手写这本书，就是为了填补这道鸿沟。

这本书代表了我们的尝试——让现代强化学习变得平易近人，用代码、数学和直觉的融合来教会人们核心概念。”

内容介绍：
第一部分包括快速入门。

第 1 章带你零基础运行第一个 RL 训练脚本，在 CartPole 倒立摆上获得"AI 能自己学会一件事"的第一手感受。
第 2 章将场景从"游戏控制"切换到"语言对齐"，用一个完整的 DPO 微调流程让大语言模型学会"不盲从用户"，体验现代 RL 如何直接作用于大模型。

接下来的五章集中构建强化学习的理论与方法体系。

第 3 章引入 RL 的数学基石——马尔可夫决策过程（MDP），从多臂老虎机问题出发，逐步建立状态、动作、奖励的形式化框架，并推导出贝尔曼方程。
第 4 章进入深度强化学习，展示 DQN 如何将 Q-Learning 从一张小表格搬进神经网络，通过经验回放和目标网络让智能体直接从 Atari 游戏像素中学会决策——这也是深度学习与强化学习融合的里程碑。
第 5 章转向另一条路线——策略梯度方法，从 REINFORCE 到带基线的策略梯度，理解策略优化的基本范式。
第 6 章搭建 Actor-Critic 架构，引入优势函数和 Critic 训练方法，让 Value-Based 和 Policy-Based 两条路线在此汇合。
第 7 章聚焦 PPO，深入裁剪（Clipping）和广义优势估计（GAE）两大核心机制，在月球着陆器上实践稳定训练的艺术——PPO 既是游戏控制时代的集大成者，也是后续所有大模型对齐算法的出发点。

第三部分讨论大模型时代的对齐与智能体算法。

第 8 章串联 SFT → RM → RL 三阶段，构建一条完整的 RLHF 工程流水线，覆盖数据工程、奖励函数设计、训练稳定性控制和自我博弈数据飞轮等实际工作中的核心挑战。
第 9 章介绍后训练对齐的前沿算法。从数学上揭示 DPO 如何将奖励信号"隐藏"在策略概率比中绕过奖励模型；随后介绍 GRPO 如何用组内相对优势进一步省去 Critic 网络。重点探讨 RLVR（基于可验证奖励的 RL），解析如何用规则反馈替代人工标注，追踪 DeepSeek-R1-Zero 纯强化学习驱动推理能力（CoT）自发涌现的最新进展。
第 10 章聚焦 Agentic RL（智能体强化学习）。探讨如何用 RL 训练能在环境中连续行动、调用工具、多轮交互的智能体，涵盖工具调用、轨迹合成、信用分配和工业界实践（如 Deep Research Agent）。这是从"对话模型"到"自主智能体"的关键跨越。

第四部分将 RL 拓展到视觉、物理世界与前沿方向。

第 11 章把 RL 从纯文本推进到视觉-语言模型（VLM），分析多模态 RL 中视觉幻觉、奖励归因等独特问题，并介绍 Open-R1 等前沿框架在视觉推理与生成上的探索。
第 12 章展望强化学习的未来趋势。不仅探讨从离散动作到连续动作控制，以及 Sim-to-Real 域随机化等具身智能的核心挑战，还覆盖了 Model-Based RL、自我博弈（Self-Play）、LLM 多智能体协作与离线 RL（Offline RL）等将彻底改变智能系统形态的前沿方向。

目标读者

本书面向学生、工程师和研究人员。不需要过往的深度学习或机器学习背景，只需基本的 Python 编程能力、线性代数（矩阵运算）、微积分（偏导数、链式法则）和概率论基础（期望、条件概率）。大多数时候，我们会优先考虑直觉和想法，而不是数学的严谨性。

#AI创造营#

发布于山东