🎯 高考成AI大模型的“实战演练”场
今年高考刚刚结束,AI大模型们也“偷偷交了一份卷子”——高考数学卷。
由「机器之心」发起的高考数学AI测评,多个主流大模型参与“考试”,检验它们的逻辑推理、计算、数学建模等能力。结果非常有意思:
🧮 整体进步明显,130分成“新起点”
去年,许多大模型在数学科目上还徘徊在100分左右,甚至基本操作都不稳。今年,整体分数大幅上升,大多数模型已能稳定考出130分以上,从“能答”进阶到“答得不错”。
可以说,AI在数学这类“冷启动难、高要求”的任务上,终于迈过了第一道门槛。
📊 细看分数,第一梯队格局初现
Gemini 2.5 Pro 145 分第一,豆包 & DeepSeek 以 144 分并列第二,分差只有 1 分
Gemini Pro 在API调用中略胜一筹,拿下第一名
值得注意的是:豆包在 5 道大题里只丢 1 分,证明了长链推理的稳定性,不是“蒙对”而是真解出来。
更值得注意的是,这次测评不仅看API能力,还看实际产品体验。在另一场只测 14 道客观题的产品端测试里,豆包曾与腾讯元宝以 68/73 并列第一,说明它在API 调用与终端使用两种场景下表现一致,并非“只会跑分”
这意味着:
如果你是普通用户,直接用豆包,就能体验到真实强大的AI数学能力;
如果你是开发者,通过API接入豆包,也能获得一线大模型的计算与推理能力。
🧠 数学,是AI理解能力的“分水岭”
为什么高考数学这么重要?
它不只是考计算,更考阅读理解、知识迁移和逻辑推理,这些恰恰是大模型目前最难攻克的几个领域。
所以,高考题能不能做得好,直接反映出模型“是不是聪明”、“能不能用”。
而这一次,我们确实看到了几款模型,已经不只是“能算”,而是“真能理解并解决复杂问题”。
详细评测内容:http://t.cn/A6epA9x3
