🎯 高考成AI大模型的“实战演练”场今年高考刚刚结束，AI大模型们也“偷偷交了一份卷子”——高考数学卷。由「机器之心」发起的高考数学AI测评，多个主流大模型参与“考试”，检验它们的逻辑推理、计算、数学建模等能力。结果非常有意思：🧮 整体进步明显，130分成“新起点”去年，许多大模

🎯 高考成AI大模型的“实战演练”场

今年高考刚刚结束，AI大模型们也“偷偷交了一份卷子”——高考数学卷。

由「机器之心」发起的高考数学AI测评，多个主流大模型参与“考试”，检验它们的逻辑推理、计算、数学建模等能力。结果非常有意思：

🧮 整体进步明显，130分成“新起点”
去年，许多大模型在数学科目上还徘徊在100分左右，甚至基本操作都不稳。今年，整体分数大幅上升，大多数模型已能稳定考出130分以上，从“能答”进阶到“答得不错”。

可以说，AI在数学这类“冷启动难、高要求”的任务上，终于迈过了第一道门槛。

📊 细看分数，第一梯队格局初现
Gemini 2.5 Pro 145 分第一，豆包 & DeepSeek 以 144 分并列第二，分差只有 1 分
Gemini Pro 在API调用中略胜一筹，拿下第一名

值得注意的是：豆包在 5 道大题里只丢 1 分，证明了长链推理的稳定性，不是“蒙对”而是真解出来。

更值得注意的是，这次测评不仅看API能力，还看实际产品体验。在另一场只测 14 道客观题的产品端测试里，豆包曾与腾讯元宝以 68/73 并列第一，说明它在API 调用与终端使用两种场景下表现一致，并非“只会跑分”

这意味着：

如果你是普通用户，直接用豆包，就能体验到真实强大的AI数学能力；

如果你是开发者，通过API接入豆包，也能获得一线大模型的计算与推理能力。

🧠 数学，是AI理解能力的“分水岭”
为什么高考数学这么重要？
它不只是考计算，更考阅读理解、知识迁移和逻辑推理，这些恰恰是大模型目前最难攻克的几个领域。

所以，高考题能不能做得好，直接反映出模型“是不是聪明”、“能不能用”。
而这一次，我们确实看到了几款模型，已经不只是“能算”，而是“真能理解并解决复杂问题”。

详细评测内容：http://t.cn/A6epA9x3

发布于日本