新智元 26-02-16 19:49
微博认证:新智元官方微博

就在刚刚,一张图在全网疯狂刷屏了!

据说,DeepSeek V4的基准测试已经泄露,整个AI圈都震了。

有大V总结道:AI编程大战,已经达到了新的高峰。

泄露信息显示,DeepSeek V4在SWE-bench Verified上取得了惊人的83.7%,超过了Claude Opus 4.5(80.9%)和GPT-5.2(80%)。

可以说,100万+上下文长度+Engram记忆机制=真正的全仓库级推理能力。

他惊呼:闭源模型占据主导的时代,是否正在走向终结?

同时泄露的,还有下面这一张图。

其中,它的SWE-Bench Verified得分,达到了83.7%。如果这个数字最终被确认,将直接改写当前「最强代码模型」排名!

相比之下,其他模型的得分都比较落后——

DeepSeek V3.2 Thinking:73.1%

GPT-5.2 High:80.0%

Kimi K2.5 Thinking:76.8%

Gemini 3.0 Pro:76.2%

这不是小幅领先,而是直接跃升到第一梯队顶端!

不仅如此,真正令人警惕的,并不只有编程能力,V4的其他分数也很惊人。

AIME 2026:99.4%

IMO Answer Bench:88.4%

FrontierMath Tier 4:23.5% (直接达到GPT-5.2的11倍)