DeepSeek发布V4模型

2025年12月1日，DeepSeek发布了V3.2。然后，就没然后了。

整整140天，近五个月，这家去年春节让全球AI圈天翻地覆的中国公司，没有发布任何新模型。

同期OpenAI推了GPT-5的预览版，Anthropic发布了Claude Opus 4.7和Claude Design，Google放出了Gemma 4，马斯克花600亿美元要买Cursor。整个行业热闹得像过年。

只有DeepSeek，安安静静。

一个去年春节前后把全球AI股价砸出窟窿的公司，一个让英伟达单日蒸发6000亿美元市值的中国团队，突然沉默了五个月。你要是OpenAI或者Google，你慌不慌？

你大概率不慌。你大概率觉得，DeepSeek不行了。

然后4月10日深夜，梁文锋在内部说了四个字，月底发布。

整个AI圈又炸了。

我先说一个数据，这个数据让我愣了好一会儿。V4 Lite，V4的轻量版，已经在API节点上灰度测试了。128K上下文的信息召回率，从45%跳到了94%。推理速度提升30%。

45%到94%。

这不是一个迭代升级的数字，这是一个从「基本不能用」到「完全够用」的跨越。之前的大模型处理128K上下文，就像一个人读了一本书但只记得前半本，后半本的内容模模糊糊有个印象但说不出来。现在这个数字直接翻倍了，等于一本书从头到尾都能记住。

如果V4 Lite都这样了，V4正式版会是什么样？

目前已知的V4核心参数，我理了一下，每一个都有点炸裂。

万亿参数MoE架构，1.6万亿总参数，激活专家数从V3的256个跃升到数千量级。百万Token上下文窗口，从V3的128K直接拉到1M，翻了7倍。原生多模态，不是拼接而是从底层就同时支持文本、图像、音频。Engram条件记忆架构，这是V4最核心的技术突破，把静态知识检索和动态逻辑推理解耦，模型查知识的时候像查字典一样，O(1)时间复杂度，不用再从头到尾扫一遍。mHC流形约束超连接，解决了深层Transformer训练不稳定的经典问题，信号放大从传统的8倍以上压到1.6倍以内。

然后是那个真正让我觉得这事不简单的地方。

V4将完全运行在华为昇腾950PR芯片上。不是兼容，不是适配，是从CUDA全面转向CANN框架的彻底迁移。

你想想看这意味着什么。过去所有的大模型，不管是美国的还是中国的，底层都跑在英伟达的CUDA生态上。CUDA之于AI，就像Windows之于PC，Android之于手机。你可以在上面做各种花样，但根基不在你手里。DeepSeek这一次，把根基拔了。

华为昇腾950PR大概率还是7nm工艺，英伟达最新芯片已经4nm甚至更先进了。制程落后，同样的算力需要更多的晶体管、更大的芯片面积、更高的功耗。坦率的讲，硬件上确实有差距。

但DeepSeek选了这条路。

不是因为没有英伟达芯片可用，而是主动选择。The Information的报道里说，DeepSeek拒绝向英伟达和AMD提供V4的预访问权限。这跟行业惯例完全相反，以往每个大模型发布前都会给芯片厂商提前适配的时间。

DeepSeek不是在做一个模型，是在做一条路。

我有时候觉得，140天的沉默，不是犹豫，是押注。押的是华为昇腾的路线能跑通，押的是从CUDA到CANN的迁移不会翻车，押的是万亿参数MoE+Engram+百万上下文这套组合拳能打穿。

赌注太大了，所以需要时间。

你想想那个画面。杭州的办公室里，梁文锋带着团队，一行一行把底层推理引擎从CUDA改写成CANN，针对华为昇腾的算子重新优化。这不是换个显卡那么简单，是整个技术栈的重建。就像你写了一套在Windows上完美运行的软件，现在要把它整个搬到Linux上，不是改改接口就行的，底层的逻辑都得重写。

所以V4原计划2月春节发布，推迟到了4月。

这个推迟本身就是最大的信号。如果只是又一个跑在英伟达上的模型，发就是了，赶个春节热度不好吗？但DeepSeek要的不是又一个模型，是一个完全不在美国技术栈上的模型。推迟不是因为模型没做好，是因为这条新的路太难走了，每一步都得自己蹚。

还有一个事，可能比V4本身更有标志性意义。

4月18日，The Information报道，DeepSeek启动了成立以来的首次外部融资，目标估值不低于100亿美元，计划筹集至少3亿美元。后续消息把估值上调到了200亿美元。

这家从第一天就划了红线「不接受外部融资，不稀释股权」的公司，梁文锋松口了。

去年2月DeepSeek被爆出考虑融资的时候，官方明确定性为「纯属谣言」。今年4月，澎湃新闻确认了，确实在融资。

一个永远说自己不差钱的人突然开始找钱了，只有一个原因，他要干的事已经大到自己的钱不够了。

V4的国产算力适配需要钱，内蒙古乌兰察布的智算中心需要钱，跟OpenAI和Anthropic抢人需要钱。OpenAI刚完成1220亿美元融资，投后估值8520亿美元。Anthropic完成300亿美元G轮融资，估值3800亿美元。DeepSeek哪怕只拿100亿美元估值，也只有人家的百分之一。

但说真的，估值从来不等于技术实力。去年春节DeepSeek用极低的成本做出了V3，直接把全球AI推理的价格打下来了。这次V4如果真的跑通了华为昇腾，那意义远远超出一个模型的发布。

就像当年华为被制裁后，不得不把手机从安卓迁移到鸿蒙。当时所有人都在看笑话，说一个手机操作系统哪有那么容易做。现在鸿蒙的市场份额已经超过iOS了。DeepSeek做的事，是AI领域的「鸿蒙时刻」。

从CUDA到CANN，从英伟达到华为昇腾，从美国技术栈到中国技术栈。这条路如果走通了，后面所有的中国大模型公司都有了一条可以跟着走的路。如果走不通，那就证明了在当前的国际环境下，AI的底层依然绕不开英伟达。

140天的沉默，不是DeepSeek在犹豫。

是整个中国AI在屏息。

V4月底就发，不管结果如何，这一枪已经上了膛。

发布于上海