【扒完 DeepSeek V4 报告,我翻出了这个隐藏彩蛋】
今天上午,DeepSeek V4 发布,直接把这个大模型疯狂更新月推向了最高潮。
百万上下文标配,性能比肩顶级闭源模型,首发适配华为昇腾芯片,随便一个点单拎出来能写一篇爆款头条。
不过在我翻看 V4 的技术报告的时候,在训练层面看到了一个被大部分人滑过去的名词:Muon 优化器。
这个技术名词,怎么看着这么眼熟呢?
原来是前两天发布的 Kimi 2.6 里,就是通过 Muon优化器,在相同的训练量下实现了2倍的效率提升,并在 1 万亿参数规模上解决了训练不稳定的难题。
早在上个月杨植麟站在英伟达 GTC 2026 的舞台上,花了演讲中最长的一个板块讲它。Kimi 是全世界第一个发论文证明 Muon 可以用在万亿参数大模型训练上的团队。
(附APPSO解读文章链接)
杨植麟是这样说的:「用 MuonClip 而非 Adam 训练 Transformer 大模型,效果会好得多。」正确实现后,token 效率提升 2 倍。在数据墙面前,这相当于把 50 万亿 token 用出了 100 万亿的效果。
现在,这项技术出现在了 DeepSeek V4 的训练方案里。
我又回来翻了一下 Kimi K2 的架构底层,又发现了一个更有意思的细节:它用的是 DeepSeek-V3 提出的 MLA(Multi-head Latent Attention)。
DeepSeek 的技术报告写着 Kimi 的名字,Kimi 的架构底座写着 DeepSeek 的名字。 你中有我,我中有你。
这大概是中国 AI 圈最魔幻的一幕:两家被外界反复对比的开源双子星,技术底层早就长到了一起。
而且,Kimi 类似这样的巧合,已经不是第一次了。 http://t.cn/AXxWFteB
