DeepSeek V4基准测试领先

就在刚刚，一张图在全网疯狂刷屏了！

据说，DeepSeek V4的基准测试已经泄露，整个AI圈都震了。

有大V总结道：AI编程大战，已经达到了新的高峰。

泄露信息显示，DeepSeek V4在SWE-bench Verified上取得了惊人的83.7%，超过了Claude Opus 4.5（80.9%）和GPT-5.2（80%）。

可以说，100万+上下文长度+Engram记忆机制=真正的全仓库级推理能力。

他惊呼：闭源模型占据主导的时代，是否正在走向终结？

同时泄露的，还有下面这一张图。

其中，它的SWE-Bench Verified得分，达到了83.7%。如果这个数字最终被确认，将直接改写当前「最强代码模型」排名！

相比之下，其他模型的得分都比较落后——

DeepSeek V3.2 Thinking：73.1%

GPT-5.2 High：80.0%

Kimi K2.5 Thinking：76.8%

Gemini 3.0 Pro：76.2%

这不是小幅领先，而是直接跃升到第一梯队顶端！

不仅如此，真正令人警惕的，并不只有编程能力，V4的其他分数也很惊人。

AIME 2026：99.4%

IMO Answer Bench：88.4%

FrontierMath Tier 4：23.5% （直接达到GPT-5.2的11倍）