徐亦达编写生成式AI讲义

在专注于推导泛化界（Generalization Bounds）几年后，我开始转向编写关于现代生成式 AI 架构的讲义。（大家搜一下我的GitHub）。此讲义结合 PyTorch 代码解析 Transformer 模型，涵盖了基础架构、K-V Caching（键值缓存）、Decoupled RoPE（解耦旋转位置编码）以及 Deepseek 的 Multi-Head Latent Attention（多头潜在注意力机制）等内容。在接下来的几个月里，我将持续更新这一主题的更多笔记，敬请关注🙏 #机器学习##大模型##deepseek ##深度学习#

发布于中国香港