爱可可-爱生活
26-05-14 15:49 微博认证:AI博主 2025微博新锐新知博主

Stanford CS336(2026)把从零构建语言模型的全流程整合到一门课,提供完整的大模型开发实战训练。

不仅有Transformer从头实现、高性能优化(FlashAttention2、Triton内核),还覆盖数据清洗去重、Scaling Laws、RLHF对齐,甚至分布式训练系统。

官网:cs336.stanford.edu
YouTube:youtube.com/playlist?list=PLoROMvodv4rMqXOcazWaTUHhq-yembLCV

主要作业:
- Assignment 1:实现Tokenizer、Transformer架构、优化器,从零训练语言模型;
- Assignment 2:性能剖析+FlashAttention2 Triton实现,构建分布式训练系统;
- Assignment 3:Scaling Laws分析,预测模型扩展性能;
- Assignment 4:处理Common Crawl原始数据,数据过滤+去重;
- Assignment 5:SFT+RL对齐,训练数学推理模型(可选DPO安全对齐)。

5单位实战课,支持GPU云服务(Modal $6.25/hr免费额度),Python/PyTorch熟练即可,适合AI研究者和工程师。

前置:CS229/CS224N线性代数概率论,超多代码量!

#StanfordCS336##语言模型##大模型训练#

发布于 北京