DeepSeek V4与Kimi技术关联

【扒完 DeepSeek V4 报告，我翻出了这个隐藏彩蛋】

今天上午，DeepSeek V4 发布，直接把这个大模型疯狂更新月推向了最高潮。

百万上下文标配，性能比肩顶级闭源模型，首发适配华为昇腾芯片，随便一个点单拎出来能写一篇爆款头条。

不过在我翻看 V4 的技术报告的时候，在训练层面看到了一个被大部分人滑过去的名词：Muon 优化器。

这个技术名词，怎么看着这么眼熟呢？

原来是前两天发布的 Kimi 2.6 里，就是通过 Muon优化器，在相同的训练量下实现了2倍的效率提升，并在 1 万亿参数规模上解决了训练不稳定的难题。

早在上个月杨植麟站在英伟达 GTC 2026 的舞台上，花了演讲中最长的一个板块讲它。Kimi 是全世界第一个发论文证明 Muon 可以用在万亿参数大模型训练上的团队。
（附APPSO解读文章链接）

杨植麟是这样说的：「用 MuonClip 而非 Adam 训练 Transformer 大模型，效果会好得多。」正确实现后，token 效率提升 2 倍。在数据墙面前，这相当于把 50 万亿 token 用出了 100 万亿的效果。

现在，这项技术出现在了 DeepSeek V4 的训练方案里。

我又回来翻了一下 Kimi K2 的架构底层，又发现了一个更有意思的细节：它用的是 DeepSeek-V3 提出的 MLA（Multi-head Latent Attention）。

DeepSeek 的技术报告写着 Kimi 的名字，Kimi 的架构底座写着 DeepSeek 的名字。你中有我，我中有你。

这大概是中国 AI 圈最魔幻的一幕：两家被外界反复对比的开源双子星，技术底层早就长到了一起。

而且，Kimi 类似这样的巧合，已经不是第一次了。 http://t.cn/AXxWFteB