DeepSeek V4迟迟不发,原来在干这件狠事。
几个月前就该亮相的V4,硬是拖到了现在。官方没明说,但圈内人都懂——这帮人不是在憋模型参数,而是在啃一块硬骨头:让V4彻底跑在国产芯片上。
重写底层,专门伺候华为芯,为了这事,DeepSeek这几个月拉着华为、寒武纪,把V4底层代码重新撸了一遍。
模型显存需求压缩到原来的四分之一——700亿参数的模型,原本140GB显存才能跑,现在35GB搞定。
打破行规,英伟达被晾在一边,按江湖规矩,新发模型得提前给英伟达、AMD这些芯片大厂做适配优化,心照不宣的默契。
这次DeepSeek没按套路出牌。独家喂给了华为和寒武纪。
《金融时报》爆料,DeepSeek之前拿昇腾训练推理模型R2,结果反复崩溃——芯片稳定性差、互联速度慢、软件工具链也不成熟。从栽跟头到今天V4能直接跑在昇腾上,中间踩了多少坑,只有他们自己知道。
DeepSeek还在开发两个V4变体,全都基于国产芯片。
如果V4真能在长上下文编程这类硬指标上跟Claude、ChatGPT掰手腕,那意味着中国开发者终于能挺直腰杆——用国产算力就能玩转顶尖模型,不用再盯着美国的出口管制清单睡不着觉。
芯片卡脖子卡的是工具,但模型这门手艺长在自己身上,工具迟早能换。#财经[超话]#
发布于 广东
