想深入了解 ChatGPT、Claude 这些 AI 背后的训练机制,尤其是它们背后那套如何通过人类反馈变得越来越智能的原理。
可以看下,来自加州大学数学系教授 Ernest K. Ryu 开设的《大语言模型的强化学习》课程,配套 PPT 和视频可以免费学习。
课程从深度强化学习基础讲起,逐步深入到 Transformer 架构和现代 LLM 技术,最后聚焦于 RLHF(人类反馈强化学习)等前沿训练方法,系统讲解了如何让 AI 模型变得更智能、更符合人类偏好。
课程地址:ernestryu.com/courses/RL-LLM.html
主要内容:
- 深度强化学习基础:MDP 理论、策略梯度方法(A3C、PPO)等核心算法;
- 大语言模型架构:从 RNN 到 Transformer,涵盖 BERT、GPT 等经典模型;
- LLM 强化学习训练:详解 RLHF、DPO 等让模型遵循人类指令的技术;
- AlphaGo 原理和专家迭代:学习如何提升模型的推理能力。
课程要求大家需要具备一定深度学习基础,提供视频教学和 Jupyter 代码示例可直接运行,理论与实践结合。
发布于 广东
