DeepSeek V4评测结果

#DeepSeekV4发布# Arena AI评测总结：DeepSeek V4进步惊人，但和上个版本发布比较，不是同一种境况了

今天的大事儿无疑就是DeepSeek发布了，当然再早一会儿，是GPT-5.5。还没来得及上手，但是看到Arena AI发了个评测视频《First impressions of DeepSeek V4 (open source)》，跟大家分享一下。

先介绍Arena AI，它的前身为LMArena，是全球最大的AI模型众测排行平台，累计超过600万次用户盲投，产生基于Elo评分的公开排行榜。

当然，我必须说，去年4月，Cohere Labs联合斯坦福、MIT、AI2等机构发表了68页论文《The Leaderboard Illusion》（后收录于NeurIPS 2025 Datasets and Benchmarks Track），指出它的测试有三个系统性问题：

1、选择性公布：部分厂商（论文点名Meta、Google、OpenAI）被允许在正式发布前私下测试大量模型变体，只公布得分最高的那个。Meta在Llama 4发布前私下测试了27个变体，最终只公开了排名第二的那一个的成绩。

2、采样不对等：闭源模型在盲测对战中被抽到的频率远高于开源模型，前两大厂商各自拿走了约20%的总对战数据，而83个开源模型加起来才拿到约30%。

3、格式偏好干扰：用户投票时倾向于选择带有分点列表、特定长度的回答，这些格式偏好和模型本身的能力无关。

现在OpenClaw等新Agent工具平台来了，看模型的干活能力，不是Arena AI测试的这些短程测试。所以，大家就看个参考。因为参考也有参考的作用。而且，其他评测还没有它这么详细（短时间出不来可能）。

这期视频的测试方式是：视频作者用十几个prompt让多个模型各做一次性代码生成，生成物是可直接在浏览器里运行的HTML页面，然后人工逐一对比视觉效果和创意质量。参与对比的模型包括Claude Opus 4.7、GLM-5.1、Gemini 3.1、GPT-5.4 High、Meta Muse Spark、MiniMax M2.5/M2.7，以及DeepSeek自己的上一代V3.2。

核心结论：V4相比五个月前的V3.2有代际级进步，但放到当前的头部模型阵营里，它大致和GLM-5.1处于同一水平，仍然落后于Opus 4.7、Gemini 3.1、GPT-5.4等闭源前沿模型。差距主要在出品稳定性和创意理解上。

下面展开。

1、先介绍DeepSeek的发布节奏。V3是2024年12月发布的，R1在2025年1月上线（R1才是真正引发全球关注的那次发布），V3.2在2025年12月1日发布。从V3.2到V4中间隔了将近五个月。这五个月里，GLM-5.1、Kimi K2.5、Gemini 3.1、GPT-5.4、Muse Spark等模型陆续上线，竞争烈度和2024年底完全不同。

2、测试覆盖了三类生成任务。第一类是3D体素场景：模型根据文字描述（比如"卡帕多奇亚热气球"）输出一整页代码，在浏览器里渲染出可旋转的3D方块世界，考验空间推理。第二类是SVG矢量图：模型用坐标和路径指令画出二维图形（比如骑自行车的人），考验构图和运动表达。第三类是UI界面：模型根据概念描述（比如"1907年世博会展览网站"）生成完整的交互式网页，同时考验视觉审美和产品意图理解。三类加在一起跑了十几个prompt，每个prompt在7到8个模型上各生成一次。视频作者自己说这是"loose test"，每个prompt只跑一次，样本有限。

3、V4相比V3.2的进步是代际级的。罗马城市的体素场景中，V4的生成已经像模像样，同一个prompt下V3.2的结果几乎不能看。金字塔、水下场景、SVG骑行动画也是同样的差距。五个月前V3.2写出的页面在视觉效果上远远落后于同期的闭源模型，V4把这段距离追回了大半。

4、追回了大半，但没有追平。在多数测试中，Opus 4.7和Gemini 3.1仍然排在V4前面。Opus的优势在于整体氛围感和品质的稳定，Gemini 3.1在3D场景的丰富度上特别强。GPT-5.4 High在多个场景中也比V4更舒服。V4能跟这些模型放在一起比较了，但逐项看下来，视频作者几乎没有给过"V4比这些闭源模型更好"的评价。

5、稳定性是V4和头部模型最大的差距。视频作者提到有好几个V4的生成因为"太离谱"而没有放进视频。金门大桥场景中，V4出现了交通布局混乱、海湾比例失调的问题。雅典卫城场景中，建筑结构散架，而且没有给用户自由旋转视角的控制。这种"忽好忽坏"的表现，在Opus和Gemini上出现得少得多。视频作者的判断是：稳定性是"第二梯队"模型的共同短板。

6、V4和GLM-5.1在开源阵营里基本同档。SVG测试中GLM-5.1略好，体素场景中两者互有胜负，UI生成的垂直农场控制界面里两者几乎难分高下。视频作者的整体感觉是：GLM可能在SVG品类上稍强，V4在3D场景和UI创意上偶有亮点，但差距很小。

7、V4在视觉风格上走了和主流模型不同的路线。水下场景的测试中，V4生成的鱼和整体风格不如Opus精致，但明显走了不同的视觉方向。视频作者认为这种差异化可能是开源模型的一个优势，给生态带来更多多样性，而不是所有模型趋同于同一种审美。

8、Muse Spark（Meta的首个自研闭源模型，2026年4月8日发布）在多数测试中排名垫底。3D场景和SVG表现都偏弱，唯一的亮点是收入恢复仪表盘那题，Muse Spark生成了一个看起来像真实业务产品的界面，反而是全场最好的。

9、UI测试中，真正拉开差距的是模型能不能读懂prompt的创意意图。视频作者选了一批故意偏离常规的prompt，不是普通的to-do应用或管理后台，而是"轨道旅行预订控制台""1907年世博会展览网站""复古未来主义家庭自动化OS"这类需要创意判断的题目。"1907年世博会"那题最典型：Opus 4.7的字体选择和整体气质最贴合"老"的感觉，V4的生成功能完整、排名大概第二，Muse Spark太现代太精致没抓住时代感。"复古未来主义家庭自动化OS"那题，Gemini 3.1拿到了全场最高评价，触感甚至比Opus更强，V4排第三。

10、Gemini 3.1这次测试里的特点是上限高、但发挥不均。3D场景和需要触感的UI（复古自动化OS）里它是最强的，但轨道旅行控制台和深海研究仪表盘里，它的生成让人困惑，空洞或者看不出想表达什么。GPT-5.4 High恰好相反，几乎每道题都不差，但也很少拿到单项第一，胜在稳。

11、Opus 4.7是整场测试中综合评价最高的模型。3D场景的品质感、UI的条理和创意理解、SVG的质量，多数prompt上它至少排在前两名。它也有弱的时候，收入恢复仪表盘那题就表现不好，但这属于个别情况。

12、V4发布时和GLM-5.1持平，这件事在竞争格局上有意味。2025年1月R1发布时，DeepSeek在中国开源生态中遥遥领先。现在V4回来了，身边已经站满了竞争者。GLM-5.1在2026年3月已经是开源第一，Kimi系列快速迭代，千问（Qwen）的发布频率高到"跟不过来"。DeepSeek如果继续六到八个月发一次模型，在开源世界的节奏中会显得太慢。视频作者认为接下来要观察的是DeepSeek能否加快迭代节奏。

13、Arena AI的正式排名也印证了视频测试的直觉。V4 Pro（thinking模式）在代码竞技场排开源第3、总排第14，水平与GPT-5.4 High和Gemini 3.1 Pro相当。文本竞技场排开源第2、总排第14，与Kimi K2.6接近。V4 Flash（thinking模式）排开源第10、总排第47。V4是一次真正的代际升级，但在绝对水平上还没有突破到开源第一，也没有撼动闭源前沿。

发布于美国