Igor Kotenkov写的一篇DeepSeek v4 论文详细解读
地址: dsv4.interactive.ikot.blog/
“在读 DeepSeek v4 论文的时候,我最后记下了 90 多个问题。网上很多论文解读都会跳过细节,而真正的学习往往就发生在这些细节里。
所以,我决定整理一份更完整的指南:一篇带注释的论文精读。核心思路是:原论文仍然是你的主要材料,但当内容变得密集或难懂时,我会带你理解下去。你会看到详细注释、可视化图解、代码片段、参考链接,以及最重要的——必要的背景信息,让你不至于迷失。
今天我发布 v1,包含前 50 条笔记。我会展开讲解的一些内容包括:
• 为什么在 MoE Router 里用 Sqrt-Softplus 替代 Softmax 和 Sigmoid?
• Birkhoff polytope 到底是什么?
• attention 会把某些 token 处理 3 次吗?
• split-KV 和 split-K 是什么?为什么 DeepSeek 放弃了它们?
• 为什么使用 Reverse KL?它又是从哪里来的?
……还有很多内容。即使是要求很高的读者,也能从中发现新东西。
开源模型目前仍然大量借鉴 DeepSeek v3,而 v4 里的细节很快也会成为讨论和机器学习面试中的常见话题。希望这份指南能帮你提前掌握这些内容。
正如我的一个朋友开玩笑说的,读完这份指南,不仅会让你成为更好的工程师,也会让你成为更好的人 😂
我无法从科学上证明这一点,但试试总没坏处。”
#AI创造营#
发布于 山东
