新快报
26-06-08 19:40 微博认证:广东新快报社官方微博

【#这届AI能考上985吗#】今年高考,@数字生命卡兹克 干了件挺疯的事——拉了12个顶级大模型,一起做全国一卷的语文和数学。
GPT-5.5、Claude Opus 4.8、Gemini 3.1 Pro、DeepSeek V4 Pro、Kimi k2.6、MiMo v2.5 Pro……全到齐了。
不是自己打分,是正经请了4位有高考阅卷经验的高中老师,建了个在线阅卷平台,盲评,不知道哪份卷子是谁答的。
结果出来了。
总分第一:小米MiMo v2.5 Pro,256.3分。第二:Kimi k2.6,256.29分。这把真的是#12个AI做高考题前二只差0.01分#。
更有意思的是,第三到第九名,7个模型只差2分。Claude、GPT、Gemini、千问、文心、星火……全部挤在一起。
三年前还在围观GPT写高考作文,现在排名前五的模型中国产占了三个,我们的正宗广货“混元3”也抢占了其中一席。
原博测得很认真,禁用外部工具、LaTeX转译、自编脚本、老师阅卷到晚上11点。过程和数据都放在http://t.cn/AXXE4zqr里了,值得一看。(新快报记者 杨帆)