2025年12月1日,DeepSeek发布了V3.2。然后,就没然后了。
整整140天,近五个月,这家去年春节让全球AI圈天翻地覆的中国公司,没有发布任何新模型。
同期OpenAI推了GPT-5的预览版,Anthropic发布了Claude Opus 4.7和Claude Design,Google放出了Gemma 4,马斯克花600亿美元要买Cursor。整个行业热闹得像过年。
只有DeepSeek,安安静静。
一个去年春节前后把全球AI股价砸出窟窿的公司,一个让英伟达单日蒸发6000亿美元市值的中国团队,突然沉默了五个月。你要是OpenAI或者Google,你慌不慌?
你大概率不慌。你大概率觉得,DeepSeek不行了。
然后4月10日深夜,梁文锋在内部说了四个字,月底发布。
整个AI圈又炸了。
我先说一个数据,这个数据让我愣了好一会儿。V4 Lite,V4的轻量版,已经在API节点上灰度测试了。128K上下文的信息召回率,从45%跳到了94%。推理速度提升30%。
45%到94%。
这不是一个迭代升级的数字,这是一个从「基本不能用」到「完全够用」的跨越。之前的大模型处理128K上下文,就像一个人读了一本书但只记得前半本,后半本的内容模模糊糊有个印象但说不出来。现在这个数字直接翻倍了,等于一本书从头到尾都能记住。
如果V4 Lite都这样了,V4正式版会是什么样?
目前已知的V4核心参数,我理了一下,每一个都有点炸裂。
万亿参数MoE架构,1.6万亿总参数,激活专家数从V3的256个跃升到数千量级。百万Token上下文窗口,从V3的128K直接拉到1M,翻了7倍。原生多模态,不是拼接而是从底层就同时支持文本、图像、音频。Engram条件记忆架构,这是V4最核心的技术突破,把静态知识检索和动态逻辑推理解耦,模型查知识的时候像查字典一样,O(1)时间复杂度,不用再从头到尾扫一遍。mHC流形约束超连接,解决了深层Transformer训练不稳定的经典问题,信号放大从传统的8倍以上压到1.6倍以内。
然后是那个真正让我觉得这事不简单的地方。
V4将完全运行在华为昇腾950PR芯片上。不是兼容,不是适配,是从CUDA全面转向CANN框架的彻底迁移。
你想想看这意味着什么。过去所有的大模型,不管是美国的还是中国的,底层都跑在英伟达的CUDA生态上。CUDA之于AI,就像Windows之于PC,Android之于手机。你可以在上面做各种花样,但根基不在你手里。DeepSeek这一次,把根基拔了。
华为昇腾950PR大概率还是7nm工艺,英伟达最新芯片已经4nm甚至更先进了。制程落后,同样的算力需要更多的晶体管、更大的芯片面积、更高的功耗。坦率的讲,硬件上确实有差距。
但DeepSeek选了这条路。
不是因为没有英伟达芯片可用,而是主动选择。The Information的报道里说,DeepSeek拒绝向英伟达和AMD提供V4的预访问权限。这跟行业惯例完全相反,以往每个大模型发布前都会给芯片厂商提前适配的时间。
DeepSeek不是在做一个模型,是在做一条路。
我有时候觉得,140天的沉默,不是犹豫,是押注。押的是华为昇腾的路线能跑通,押的是从CUDA到CANN的迁移不会翻车,押的是万亿参数MoE+Engram+百万上下文这套组合拳能打穿。
赌注太大了,所以需要时间。
你想想那个画面。杭州的办公室里,梁文锋带着团队,一行一行把底层推理引擎从CUDA改写成CANN,针对华为昇腾的算子重新优化。这不是换个显卡那么简单,是整个技术栈的重建。就像你写了一套在Windows上完美运行的软件,现在要把它整个搬到Linux上,不是改改接口就行的,底层的逻辑都得重写。
所以V4原计划2月春节发布,推迟到了4月。
这个推迟本身就是最大的信号。如果只是又一个跑在英伟达上的模型,发就是了,赶个春节热度不好吗?但DeepSeek要的不是又一个模型,是一个完全不在美国技术栈上的模型。推迟不是因为模型没做好,是因为这条新的路太难走了,每一步都得自己蹚。
还有一个事,可能比V4本身更有标志性意义。
4月18日,The Information报道,DeepSeek启动了成立以来的首次外部融资,目标估值不低于100亿美元,计划筹集至少3亿美元。后续消息把估值上调到了200亿美元。
这家从第一天就划了红线「不接受外部融资,不稀释股权」的公司,梁文锋松口了。
去年2月DeepSeek被爆出考虑融资的时候,官方明确定性为「纯属谣言」。今年4月,澎湃新闻确认了,确实在融资。
一个永远说自己不差钱的人突然开始找钱了,只有一个原因,他要干的事已经大到自己的钱不够了。
V4的国产算力适配需要钱,内蒙古乌兰察布的智算中心需要钱,跟OpenAI和Anthropic抢人需要钱。OpenAI刚完成1220亿美元融资,投后估值8520亿美元。Anthropic完成300亿美元G轮融资,估值3800亿美元。DeepSeek哪怕只拿100亿美元估值,也只有人家的百分之一。
但说真的,估值从来不等于技术实力。去年春节DeepSeek用极低的成本做出了V3,直接把全球AI推理的价格打下来了。这次V4如果真的跑通了华为昇腾,那意义远远超出一个模型的发布。
就像当年华为被制裁后,不得不把手机从安卓迁移到鸿蒙。当时所有人都在看笑话,说一个手机操作系统哪有那么容易做。现在鸿蒙的市场份额已经超过iOS了。DeepSeek做的事,是AI领域的「鸿蒙时刻」。
从CUDA到CANN,从英伟达到华为昇腾,从美国技术栈到中国技术栈。这条路如果走通了,后面所有的中国大模型公司都有了一条可以跟着走的路。如果走不通,那就证明了在当前的国际环境下,AI的底层依然绕不开英伟达。
140天的沉默,不是DeepSeek在犹豫。
是整个中国AI在屏息。
V4月底就发,不管结果如何,这一枪已经上了膛。
发布于 上海
