Hands-On Modern RL 是一套从经典控制到 LLM 对齐与 Agentic 系统的实践型强化学习开源课程。它采用“先跑代码、再讲理论”的教学路径,帮助学习者通过可运行的实验逐步建立对状态、价值函数、策略梯度、奖励建模和信用分配的直观理解。
课程不仅涵盖 CartPole、DQN、PPO 等经典内容,还包含完整的 RLHF、DPO、GRPO、RLVR 训练流程,以及多轮工具调用 Agent 和 VLM 强化学习的动手实验。所有代码均可独立运行,配有训练曲线、失败信号与调试指南,适合希望真正动手实现现代 RL 的工程师、研究者和自学者。
GitHub:github.com/walkinglabs/hands-on-modern-rl
课程站点:walkinglabs.github.io/hands-on-modern-rl/
主要内容:
- 基础实践:CartPole、DPO 偏好微调,快速建立 RL 直觉;
- 核心方法:MDP、价值函数、策略梯度、Actor-Critic、PPO 及其工程实现;
- LLM 时代 RL:RLHF 全流程、DPO/GRPO、RLVR、可验证奖励训练;
- 前沿方向:Agentic RL、多轮轨迹合成、VLM 强化学习与多智能体系统;
- 配套资源:调试手册、代码速查表、数学附录与可复现实验。
支持本地通过 npm 启动文档站点,Python 环境运行代码示例,适合个人学习、小组研讨与课程教学使用。
#强化学习# #LLM对齐# #开源课程#
发布于 北京
