现代RL课程开源

Hands-On Modern RL 是一套从经典控制到 LLM 对齐与 Agentic 系统的实践型强化学习开源课程。它采用“先跑代码、再讲理论”的教学路径，帮助学习者通过可运行的实验逐步建立对状态、价值函数、策略梯度、奖励建模和信用分配的直观理解。

课程不仅涵盖 CartPole、DQN、PPO 等经典内容，还包含完整的 RLHF、DPO、GRPO、RLVR 训练流程，以及多轮工具调用 Agent 和 VLM 强化学习的动手实验。所有代码均可独立运行，配有训练曲线、失败信号与调试指南，适合希望真正动手实现现代 RL 的工程师、研究者和自学者。

GitHub：github.com/walkinglabs/hands-on-modern-rl
课程站点：walkinglabs.github.io/hands-on-modern-rl/

主要内容：
- 基础实践：CartPole、DPO 偏好微调，快速建立 RL 直觉；
- 核心方法：MDP、价值函数、策略梯度、Actor-Critic、PPO 及其工程实现；
- LLM 时代 RL：RLHF 全流程、DPO/GRPO、RLVR、可验证奖励训练；
- 前沿方向：Agentic RL、多轮轨迹合成、VLM 强化学习与多智能体系统；
- 配套资源：调试手册、代码速查表、数学附录与可复现实验。

支持本地通过 npm 启动文档站点，Python 环境运行代码示例，适合个人学习、小组研讨与课程教学使用。

#强化学习# #LLM对齐# #开源课程#

发布于北京