蚁工厂
26-05-31 13:51 微博认证:科技博主

强化学习教程 Hands on Modern RL
在线阅读:walkinglabs.github.io/hands-on-modern-rl/
中英双语,看评价反馈都不错。
“市面上的学习资源严重滞后于行业实践。主流教程对 RL 一笔带过,专门的 RL 教材又停留在传统框架,对 PPO、DPO、GRPO 只字不提。一个想要理解 RLHF 流程的工程师,不得不在经典教材和最新论文之间艰难地自行搭建桥梁。我们着手写这本书,就是为了填补这道鸿沟。

这本书代表了我们的尝试——让现代强化学习变得平易近人,用代码、数学和直觉的融合来教会人们核心概念。”

内容介绍:
第一部分包括快速入门。

第 1 章带你零基础运行第一个 RL 训练脚本,在 CartPole 倒立摆上获得"AI 能自己学会一件事"的第一手感受。
第 2 章将场景从"游戏控制"切换到"语言对齐",用一个完整的 DPO 微调流程让大语言模型学会"不盲从用户",体验现代 RL 如何直接作用于大模型。

接下来的五章集中构建强化学习的理论与方法体系。

第 3 章引入 RL 的数学基石——马尔可夫决策过程(MDP),从多臂老虎机问题出发,逐步建立状态、动作、奖励的形式化框架,并推导出贝尔曼方程。
第 4 章进入深度强化学习,展示 DQN 如何将 Q-Learning 从一张小表格搬进神经网络,通过经验回放和目标网络让智能体直接从 Atari 游戏像素中学会决策——这也是深度学习与强化学习融合的里程碑。
第 5 章转向另一条路线——策略梯度方法,从 REINFORCE 到带基线的策略梯度,理解策略优化的基本范式。
第 6 章搭建 Actor-Critic 架构,引入优势函数和 Critic 训练方法,让 Value-Based 和 Policy-Based 两条路线在此汇合。
第 7 章聚焦 PPO,深入裁剪(Clipping)和广义优势估计(GAE)两大核心机制,在月球着陆器上实践稳定训练的艺术——PPO 既是游戏控制时代的集大成者,也是后续所有大模型对齐算法的出发点。

第三部分讨论大模型时代的对齐与智能体算法。

第 8 章串联 SFT → RM → RL 三阶段,构建一条完整的 RLHF 工程流水线,覆盖数据工程、奖励函数设计、训练稳定性控制和自我博弈数据飞轮等实际工作中的核心挑战。
第 9 章介绍后训练对齐的前沿算法。从数学上揭示 DPO 如何将奖励信号"隐藏"在策略概率比中绕过奖励模型;随后介绍 GRPO 如何用组内相对优势进一步省去 Critic 网络。重点探讨 RLVR(基于可验证奖励的 RL),解析如何用规则反馈替代人工标注,追踪 DeepSeek-R1-Zero 纯强化学习驱动推理能力(CoT)自发涌现的最新进展。
第 10 章聚焦 Agentic RL(智能体强化学习)。探讨如何用 RL 训练能在环境中连续行动、调用工具、多轮交互的智能体,涵盖工具调用、轨迹合成、信用分配和工业界实践(如 Deep Research Agent)。这是从"对话模型"到"自主智能体"的关键跨越。

第四部分将 RL 拓展到视觉、物理世界与前沿方向。

第 11 章把 RL 从纯文本推进到视觉-语言模型(VLM),分析多模态 RL 中视觉幻觉、奖励归因等独特问题,并介绍 Open-R1 等前沿框架在视觉推理与生成上的探索。
第 12 章展望强化学习的未来趋势。不仅探讨从离散动作到连续动作控制,以及 Sim-to-Real 域随机化等具身智能的核心挑战,还覆盖了 Model-Based RL、自我博弈(Self-Play)、LLM 多智能体协作与离线 RL(Offline RL)等将彻底改变智能系统形态的前沿方向。

目标读者

本书面向学生、工程师和研究人员。不需要过往的深度学习或机器学习背景,只需基本的 Python 编程能力、线性代数(矩阵运算)、微积分(偏导数、链式法则)和概率论基础(期望、条件概率)。大多数时候,我们会优先考虑直觉和想法,而不是数学的严谨性。

#AI创造营#

发布于 山东