Deepseek新模型影响被低估

Deepseek新模型的影响被严重低估了！

上周五，deepseek发布了最新的模型V4，说实话这次V4的发布给世界带来的震撼并没有V3那么大，相比上次deepseekV3给美股带来的恐慌暴跌，上周五美股走势反而非常强劲。但实际上，我觉得deepseekV4带来的影响被严重低估了。

第一重低估在于中国模型企业的能力。毫无疑问，deepseekV4的模型能力距离第一梯队GPT5.5，Opus 4.7还有一定的差距，但这个差距是在肉眼所见的缩小的。从一些官方评测来看，V4在其Vibe Code Benchmark中以"压倒性优势"拿下开源权重模型榜首，击败Gemini 3.1 Pro等闭源模型，较上代V3.2实现约10倍性能跃升。

从我周围重度使用的朋友评测来看，V4推理能力强于国内一线的GLM5.1、Kimi K2.6，和海外头部模型还有一定差距。其中长上下文能力是遥遥领先，V4已经做到1百万长上下文能力，国内一线比如智谱GLM5.1只有20万。在deepseek的技术报告中写到：

长视野场景和任务的涌现——从复杂的智能体工作流到大规模的跨文档分析——也使得对超长上下文的高效支持，对未来进展至关重要。这个比较好理解，我们平时问AI一个问题让他回答，这是非常简单的应用，AI的发展趋势一定是去解决更加复杂的问题，越复杂的问题涉及到的任务长度一定更长，只有做到了高效的长上下文处理，模型才能更好地做推理、完成长程任务，完成复杂任务。

除了Deepseek V4，大家有兴趣可以去听一下本周张小珺的又一期播客，播客中采访了小米的AI业务负责人，被称为天才少年的罗福莉。不要小看小米的AI，小米的最新的模型MiMo V2.5绝对是国内第一梯队的模型，能力相比港股两家当红炸子鸡模型公司只强不弱，从第三方调用量来看也持续位居前列。

在2026年3月22日至4月21日的一个月周期内，MiMo-V2-Pro的月度调用量达到了惊人的 9.43万亿Tokens，稳居全球第一。只不过公司流通股太大，没人去按模型公司炒作，炒股，市场关注度不高而已。罗福莉的这次访谈，信息量非常大，大家可以去听听。

她认为国内距Claude Opus 4.6这种全球顶级模型大概有2-3个月代差，拥有百万上下文的模型本质上都在一条起跑线上，她表示"上一个时代的成功并不意味着下一个时代的领先，现在基本上大家在同一水平线"。她还提到小龙虾这种Agent框架对于提升模型使用体验是有巨大帮助的，一些模型虽然能力不够强，但在这种Agent框架下能给用户提供更强模型的体验。

简单来说她认为打造一个好的Agent框架是有助于模型提供越级体验的。这意味着有可能我们的模型确实不如美国的顶级模型，但我们的模型在一个好的Agent框架下，体验可能会追平一些美国顶级模型。

另一点很重要的是，不是每一个人都需要顶级模型，豆包这种智能水平不太高的模型其实是中国token调用量最高的模型...我其实之前也写过一篇文章，在coding时代，由于训练的门槛难度相比大语言模型时代是降低的，模型之间能力的差异一定会被缩小。无论是小米还是deepseek都在进一步的证明这一点。

这种模型能力的缩小会带来什么变化呢？我认为这就是Deepseek新模型被低估的第二个影响。这种模型能力的缩小，会颠覆掉AI的竞争格局，无论是硬件还是软件。本周末，Deepseek放出了五一限定优惠，虽然说是五一限定优惠，但根据公司之前的披露，在下半年昇腾 950 批量部署后，这就会是常规价格，甚至更低。

这个价格意味着什么，大家可以来看下一些媒体统计的价格对比表。deepseek的价格是之前国内头部模型价格的10%（我也不知道为什么有人要去抱团炒作港股的国内二线模型公司...）对比海外的模型，价格更是便宜得离谱，大概只有海外3-5%的价格。

价格不是最重要的，最重要的是下半年要在昇腾 950 批量部署，之前传出过很多次在做适配，目前来看暂时还没完成，但也就是一步之遥了。推理这件事我们和美国的差距远小于训练！

其他厂商和英伟达的差距更是远小于训练。如果国内的百万长上下文模型推理可以全面用国内的GPU，服务器，这意味着中国制造业将会像移动互联网，新能源一样，为全球的应用铺开落地做出重要贡献。

过去AI推理的降本难度很大，最重要的原因就在于AI硬件企业几乎都是海外企业，光伏在没有中国企业进入之前成本是现在的十倍；锂电在没有中国企业进入之前成本是现在十倍；中国企业把所有百万豪车的汽车零部件配置卷到了30万级别。

中国企业的降本能力，不需要质疑。而现在，很可能顶尖模型将会拥有能持续降本的中国制造硬件进行推理。伴随模型能力的进步，下半年某一个时间我们很可能将会看到能力差距不大的中国模型只有美国模型5%的推理成本。token又没有国界...美国总不能出台一个法案不允许全美国人用中国模型吧？

当然这里最大的分歧可能在于到底中国模型能力到底能不能接近美国的头部模型。我想再过3-6个月应该就有答案了。下半年再来看看呢？

发布于上海