终于有空看 DeepSeek V4 了,除了今天的 DeepSeek 官方发布的信息,其实昇腾也发了相关的内容,有一些细节我觉得还挺重要。
DeepSeek 官方公告只提了开源权重和API,对训练硬件只字未提,但昇腾明确写了,DeepSeek V4 使用了华为芯片训练,昇腾完成了 DeepSeek V4-Flash 模型续训练(CPT)的 0-day 适配,也就是说在发布日之前就已经完成了全链路打通。
DeepSeek 的「预览版」为什么要叫做预览版呢?
大概率就是因为:受限于高端算力,V4-Pro 的服务吞吐仍有限,预计下半年昇腾950超节点批量上市后,价格会大幅下调。
也就是说,V4-Pro 现在的价格,不是 DeepSeek 定的,是算力卡脖子定的。
毕竟昇腾950跑 V4-Pro,8K 输入场景下单卡 Decode 吞吐 4700 TPS,延迟 20ms。 这种程度的优化,不可能是发布后适配的结果。
所以今天这场发布,表面上的重点是「1M上下文是标配」,但更重要的是中国 AI 算力上下游闭环(不喜欢这个词但是好像也换不了别的)。也就是说模型架构、稀疏算子、硬件融合 kernel,没有一个环节需要英伟达。
当然,目前 V4 的技术报告里同时写进了英伟达和昇腾,还是两条腿走路,但目前看来如果没有了英伟达,至少它也是能走下去的。
也难怪前几天老黄在博客采访里发飙了,限制中国人买英伟达芯片,那他们就真的搞自己的去了,最终就是美国既限制不了中国发展,本来能赚的钱还没赚到[柯基] #DeepSeekV4发布#
发布于 北京
