就在刚刚,一张图在全网疯狂刷屏了!
据说,DeepSeek V4的基准测试已经泄露,整个AI圈都震了。
有大V总结道:AI编程大战,已经达到了新的高峰。
泄露信息显示,DeepSeek V4在SWE-bench Verified上取得了惊人的83.7%,超过了Claude Opus 4.5(80.9%)和GPT-5.2(80%)。
可以说,100万+上下文长度+Engram记忆机制=真正的全仓库级推理能力。
他惊呼:闭源模型占据主导的时代,是否正在走向终结?
同时泄露的,还有下面这一张图。
其中,它的SWE-Bench Verified得分,达到了83.7%。如果这个数字最终被确认,将直接改写当前「最强代码模型」排名!
相比之下,其他模型的得分都比较落后——
DeepSeek V3.2 Thinking:73.1%
GPT-5.2 High:80.0%
Kimi K2.5 Thinking:76.8%
Gemini 3.0 Pro:76.2%
这不是小幅领先,而是直接跃升到第一梯队顶端!
不仅如此,真正令人警惕的,并不只有编程能力,V4的其他分数也很惊人。
AIME 2026:99.4%
IMO Answer Bench:88.4%
FrontierMath Tier 4:23.5% (直接达到GPT-5.2的11倍)
