量子位 25-07-13 23:16
微博认证:量子位官方微博

#GPT5基准测试分数泄露##GPT5要来了吗#

GPT-5基准测试分数泄露,整体表现超前,网传7月31日发布:

- SWE-Bench(代码修复任务)
GPT-5 reasoning拿到90分,明显高于Grok 4 Heavy的73.5分和Gemini 2.5 Pro的63.8分;

- GPQA(复杂问题解答)
GPT-5 reasoning最高95分,仅次的是GPT-5 base(90分)和Grok 4 Heavy(88.9分);

- AIME25(奥数难题)
GPT-5 base和reasoning双双满分100分,完全超越Kimi(54分)与Gemini(88分);

- HLE(高难长文本理解)
虽然整体分数都偏低,但GPT-5 reasoning依然最高,为56分,远超Gemini(21.6)与Grok(44.4)。

目前尚不清楚这些数据是否来自OpenAI内部,但内容细致、覆盖全面,该网友表示“已和OpenAI工作的叔叔求证”。