karminski-牙医 26-02-10 09:14
微博认证:AI博主

AIME26榜单刚刚发布了!

GPT-5.2(high) 仍然是SOTA, 而夺得国产+开放权重模型SOTA的是kimi-k2.5.

DeepSeek-V3.2 目前稍稍落后Kimi-K2.5, 但仍然分数比Gemini-3-Pro要高.

AIME26这次也跟AIME25差不太多,基本已经被刷爆了,这次只有第15题大模型普遍回答得不好,而AIME25则是第14题,目前数学领域的评测的确缺乏一个能拉开模型差距的问题集。这也变相说明了现在AI的数学能力的确足够高。

#HOW I AI#

发布于 日本