新智元
25-11-04 09:59 微博认证:新智元官方微博

斯坦福在 YouTube 上发布了一堂时长 1 小时 47 分钟的关于 LLM 训练的公开课。这是他们秋季 2025 年系列讲座中关于 Transformer 和 LLM 的第四讲。

本视频涵盖的主题:
→ 预训练
→ 规模定律,Chinchilla 定律
→ 训练优化概述
→ 使用 ZeRO 进行数据并行
→ 模型并行
→ 闪存关注
→ 量化
→ 混合精度训练
→ 监督微调
→ 指令微调
→ 基于 LoRA 的参数高效微调
→ QLoRA