徐亦达教授 25-12-14 22:11

在专注于推导泛化界(Generalization Bounds)几年后,我开始转向编写关于现代生成式 AI 架构的讲义。(大家搜一下我的GitHub)。 此讲义结合 PyTorch 代码解析 Transformer 模型,涵盖了基础架构、K-V Caching(键值缓存)、Decoupled RoPE(解耦旋转位置编码)以及 Deepseek 的 Multi-Head Latent Attention(多头潜在注意力机制)等内容。在接下来的几个月里,我将持续更新这一主题的更多笔记,敬请关注🙏 #机器学习##大模型##deepseek  ##深度学习#

发布于 中国香港