#GPT5基准测试分数泄露##GPT5要来了吗#GPT-5基准测试分数泄露，整体表现超前，网传7月31日发布：- SWE-Bench（代码修复任务） GPT-5 reasoning拿到90分，明显高于Grok 4 Heavy的73.5分和Gemini 2.5 Pro的63.8分；- GPQA（复杂问题解答） GPT-5 reasoning最高95分，仅次的是GPT-5 base（90分

#GPT5基准测试分数泄露##GPT5要来了吗#

GPT-5基准测试分数泄露，整体表现超前，网传7月31日发布：

- SWE-Bench（代码修复任务）
GPT-5 reasoning拿到90分，明显高于Grok 4 Heavy的73.5分和Gemini 2.5 Pro的63.8分；

- GPQA（复杂问题解答）
GPT-5 reasoning最高95分，仅次的是GPT-5 base（90分）和Grok 4 Heavy（88.9分）；

- AIME25（奥数难题）
GPT-5 base和reasoning双双满分100分，完全超越Kimi（54分）与Gemini（88分）；

- HLE（高难长文本理解）
虽然整体分数都偏低，但GPT-5 reasoning依然最高，为56分，远超Gemini（21.6）与Grok（44.4）。

目前尚不清楚这些数据是否来自OpenAI内部，但内容细致、覆盖全面，该网友表示“已和OpenAI工作的叔叔求证”。