有博主测试了12个大模型一起做了今年全国一卷的语文和数学,由4位有真实阅卷经验的高中老师在在线阅卷平台盲评打分,全程API调用、禁止所有工具功能、数学题统一用LaTeX格式输入。
总分最高的是MiMo v2.5 Pro,拿到了256.3分,语文数学单科平均128分。这个成绩放在全国绝大多数省份,光凭这两科就已经摸到了985院校的门槛。紧随其后的是Kimi k2.6,总分256.29分,和第一名只差了0.01分,其中语文MiMo比Kimi多1分,数学Kimi比MiMo多1分,咬得非常紧。
有意思的是,AI也会偏科。这次数学题大家普遍做得很好,不少模型接近满分,但语文的差距一下子就拉开了。阅卷老师的评语里高频出现"文体不清""结构不清晰""论证不充分",AI写的议论文大多看着像模像样,但经不起细读推敲。数学可以靠逻辑硬算,语文需要的"人味儿",这道坎AI目前还没有完全迈过去。这次的语文单科状元是GLM 5.1和Gemini并列,但它们的数学成绩都明显拖了后腿;反过来MiMo数学几乎拉满,语文就差了一口气。
回想三年前2023年第一次用高考试卷测AI的时候,GPT-4是绝对的王者,国产大模型连几个能打的都拿不出来,全网都在好奇"AI写高考作文能拿几分"。2024年国产模型开始卷起来,但还是有不少翻车的情况;2025年测试的时候,已经有几个模型的数学成绩够上一本线了;到了2026年,不仅有模型总分能上985,而且是整个国产阵营集体上桌。这次测试覆盖了MiMo、Kimi、DeepSeek、千问、文心、星火、智谱、MiniMax、混元几乎所有国内主流厂商的旗舰模型,不是一两家的单点突破,而是整个行业的全面进步。
三年时间,排名彻底洗牌,有的模型掉队了,有的后来者居上。小米做AI不算最早,但MiMo现在拿到了高考总分第一,说明起步晚不代表跑不快~
#这届AI能考上985吗#
