AIME26榜单刚刚发布了!
GPT-5.2(high) 仍然是SOTA, 而夺得国产+开放权重模型SOTA的是kimi-k2.5.
DeepSeek-V3.2 目前稍稍落后Kimi-K2.5, 但仍然分数比Gemini-3-Pro要高.
AIME26这次也跟AIME25差不太多,基本已经被刷爆了,这次只有第15题大模型普遍回答得不好,而AIME25则是第14题,目前数学领域的评测的确缺乏一个能拉开模型差距的问题集。这也变相说明了现在AI的数学能力的确足够高。
#HOW I AI#
发布于 日本
