高飞 26-04-24 13:29
微博认证:至顶科技创始人 AI博主

#DeepSeekV4发布# Arena AI评测总结:DeepSeek V4进步惊人,但和上个版本发布比较,不是同一种境况了

今天的大事儿无疑就是DeepSeek发布了,当然再早一会儿,是GPT-5.5。还没来得及上手,但是看到Arena AI发了个评测视频《First impressions of DeepSeek V4 (open source)》,跟大家分享一下。

先介绍Arena AI,它的前身为LMArena,是全球最大的AI模型众测排行平台,累计超过600万次用户盲投,产生基于Elo评分的公开排行榜。

当然,我必须说,去年4月,Cohere Labs联合斯坦福、MIT、AI2等机构发表了68页论文《The Leaderboard Illusion》(后收录于NeurIPS 2025 Datasets and Benchmarks Track),指出它的测试有三个系统性问题:

1、选择性公布:部分厂商(论文点名Meta、Google、OpenAI)被允许在正式发布前私下测试大量模型变体,只公布得分最高的那个。Meta在Llama 4发布前私下测试了27个变体,最终只公开了排名第二的那一个的成绩。

2、采样不对等:闭源模型在盲测对战中被抽到的频率远高于开源模型,前两大厂商各自拿走了约20%的总对战数据,而83个开源模型加起来才拿到约30%。

3、格式偏好干扰:用户投票时倾向于选择带有分点列表、特定长度的回答,这些格式偏好和模型本身的能力无关。

现在OpenClaw等新Agent工具平台来了,看模型的干活能力,不是Arena AI测试的这些短程测试。所以,大家就看个参考。因为参考也有参考的作用。而且,其他评测还没有它这么详细(短时间出不来可能)。

这期视频的测试方式是:视频作者用十几个prompt让多个模型各做一次性代码生成,生成物是可直接在浏览器里运行的HTML页面,然后人工逐一对比视觉效果和创意质量。参与对比的模型包括Claude Opus 4.7、GLM-5.1、Gemini 3.1、GPT-5.4 High、Meta Muse Spark、MiniMax M2.5/M2.7,以及DeepSeek自己的上一代V3.2。

核心结论:V4相比五个月前的V3.2有代际级进步,但放到当前的头部模型阵营里,它大致和GLM-5.1处于同一水平,仍然落后于Opus 4.7、Gemini 3.1、GPT-5.4等闭源前沿模型。差距主要在出品稳定性和创意理解上。

下面展开。

1、先介绍DeepSeek的发布节奏。V3是2024年12月发布的,R1在2025年1月上线(R1才是真正引发全球关注的那次发布),V3.2在2025年12月1日发布。从V3.2到V4中间隔了将近五个月。这五个月里,GLM-5.1、Kimi K2.5、Gemini 3.1、GPT-5.4、Muse Spark等模型陆续上线,竞争烈度和2024年底完全不同。

2、测试覆盖了三类生成任务。第一类是3D体素场景:模型根据文字描述(比如"卡帕多奇亚热气球")输出一整页代码,在浏览器里渲染出可旋转的3D方块世界,考验空间推理。第二类是SVG矢量图:模型用坐标和路径指令画出二维图形(比如骑自行车的人),考验构图和运动表达。第三类是UI界面:模型根据概念描述(比如"1907年世博会展览网站")生成完整的交互式网页,同时考验视觉审美和产品意图理解。三类加在一起跑了十几个prompt,每个prompt在7到8个模型上各生成一次。视频作者自己说这是"loose test",每个prompt只跑一次,样本有限。

3、V4相比V3.2的进步是代际级的。罗马城市的体素场景中,V4的生成已经像模像样,同一个prompt下V3.2的结果几乎不能看。金字塔、水下场景、SVG骑行动画也是同样的差距。五个月前V3.2写出的页面在视觉效果上远远落后于同期的闭源模型,V4把这段距离追回了大半。

4、追回了大半,但没有追平。在多数测试中,Opus 4.7和Gemini 3.1仍然排在V4前面。Opus的优势在于整体氛围感和品质的稳定,Gemini 3.1在3D场景的丰富度上特别强。GPT-5.4 High在多个场景中也比V4更舒服。V4能跟这些模型放在一起比较了,但逐项看下来,视频作者几乎没有给过"V4比这些闭源模型更好"的评价。

5、稳定性是V4和头部模型最大的差距。视频作者提到有好几个V4的生成因为"太离谱"而没有放进视频。金门大桥场景中,V4出现了交通布局混乱、海湾比例失调的问题。雅典卫城场景中,建筑结构散架,而且没有给用户自由旋转视角的控制。这种"忽好忽坏"的表现,在Opus和Gemini上出现得少得多。视频作者的判断是:稳定性是"第二梯队"模型的共同短板。

6、V4和GLM-5.1在开源阵营里基本同档。SVG测试中GLM-5.1略好,体素场景中两者互有胜负,UI生成的垂直农场控制界面里两者几乎难分高下。视频作者的整体感觉是:GLM可能在SVG品类上稍强,V4在3D场景和UI创意上偶有亮点,但差距很小。

7、V4在视觉风格上走了和主流模型不同的路线。水下场景的测试中,V4生成的鱼和整体风格不如Opus精致,但明显走了不同的视觉方向。视频作者认为这种差异化可能是开源模型的一个优势,给生态带来更多多样性,而不是所有模型趋同于同一种审美。

8、Muse Spark(Meta的首个自研闭源模型,2026年4月8日发布)在多数测试中排名垫底。3D场景和SVG表现都偏弱,唯一的亮点是收入恢复仪表盘那题,Muse Spark生成了一个看起来像真实业务产品的界面,反而是全场最好的。

9、UI测试中,真正拉开差距的是模型能不能读懂prompt的创意意图。视频作者选了一批故意偏离常规的prompt,不是普通的to-do应用或管理后台,而是"轨道旅行预订控制台""1907年世博会展览网站""复古未来主义家庭自动化OS"这类需要创意判断的题目。"1907年世博会"那题最典型:Opus 4.7的字体选择和整体气质最贴合"老"的感觉,V4的生成功能完整、排名大概第二,Muse Spark太现代太精致没抓住时代感。"复古未来主义家庭自动化OS"那题,Gemini 3.1拿到了全场最高评价,触感甚至比Opus更强,V4排第三。

10、Gemini 3.1这次测试里的特点是上限高、但发挥不均。3D场景和需要触感的UI(复古自动化OS)里它是最强的,但轨道旅行控制台和深海研究仪表盘里,它的生成让人困惑,空洞或者看不出想表达什么。GPT-5.4 High恰好相反,几乎每道题都不差,但也很少拿到单项第一,胜在稳。

11、Opus 4.7是整场测试中综合评价最高的模型。3D场景的品质感、UI的条理和创意理解、SVG的质量,多数prompt上它至少排在前两名。它也有弱的时候,收入恢复仪表盘那题就表现不好,但这属于个别情况。

12、V4发布时和GLM-5.1持平,这件事在竞争格局上有意味。2025年1月R1发布时,DeepSeek在中国开源生态中遥遥领先。现在V4回来了,身边已经站满了竞争者。GLM-5.1在2026年3月已经是开源第一,Kimi系列快速迭代,千问(Qwen)的发布频率高到"跟不过来"。DeepSeek如果继续六到八个月发一次模型,在开源世界的节奏中会显得太慢。视频作者认为接下来要观察的是DeepSeek能否加快迭代节奏。

13、Arena AI的正式排名也印证了视频测试的直觉。V4 Pro(thinking模式)在代码竞技场排开源第3、总排第14,水平与GPT-5.4 High和Gemini 3.1 Pro相当。文本竞技场排开源第2、总排第14,与Kimi K2.6接近。V4 Flash(thinking模式)排开源第10、总排第47。V4是一次真正的代际升级,但在绝对水平上还没有突破到开源第一,也没有撼动闭源前沿。

发布于 美国