DeepLearning.AI推出一门全新的免费课程《大语言模型的微调与强化学习:后训练入门》,由AMD AI副总裁Sharon Zhou主讲,现已开放学习。
后训练是将基础大语言模型(LLM)——即通过海量无标签文本训练预测下一个词的模型——转变为能听指令、表现可靠助手的关键技术。很多应用中,后训练能让原本只有80%成功率的演示变成稳定可用的系统。
课程涵盖五大模块,手把手讲解后训练全流程:监督微调、奖励建模、基于人类反馈的强化学习(RLHF),以及PPO、GRPO等技术。同时介绍LoRA技术,实现高效微调,无需重新训练全模型。还教你如何设计评估机制,在上线前后发现问题。
你将掌握:
- 通过监督微调和强化学习(RLHF、PPO、GRPO)调整模型行为
- 使用LoRA高效微调,节省计算资源
- 准备和合成训练数据,支持后训练
- 理解生产环境中LLM管道的决策节点与反馈循环
这些先进技能不再是顶尖实验室的专利,任何开发者都能用后训练提升模型表现,推动AI落地。
后训练是AI从理论到实用的关键环节,它让模型不断学习反馈、优化表现,从而更聪明、更听话、更可靠。掌握这门技术,是打造高质量AI产品的必经之路。
链接:www.deeplearning.ai/courses/fine-tuning-and-reinforcement-learning-for-llms-intro-to-post-training
发布于 河北
