用做题考AI是陷阱

用做题来考AI，是个挺高级的误会。

人有一种根深蒂固的习惯：遇到任何新物种新东西，第一反应是出题考考它。

这个习惯大家大概是从小学就继承来的。老师判断你聪不聪明，靠的是卷子。家长判断补习值不值，靠的也是卷子。

现在AI来了，大家自然而然地掏出了卷子——而且不是随便什么卷子，是最难的那种。

奥数题、物理竞赛、高考压轴..一套组合拳打下去，谁的正确率高，谁就是”最强AI”。各大模型的排行榜，本质上就是一张巨大的竞赛成绩单。

这个思路看上去无懈可击。但它是个巨大的陷阱。（我的观点而已可以被反驳）。

先说清楚我不反对什么：

我不反对测试。让AI做基础数学题、检验它的逻辑是否连贯、语言是否通顺、事实是否准确——这些相当于体检，是有意义的。

你得先确认这个东西心肺功能正常，才能谈别的。

我反对的是另一件事：用奥赛级别的竞技题，作为衡量AI”聪不聪明”的核心判据。然后用这个判据来排名、定价、做购买决策，甚至形成一种公众认知——“这个AI比那个AI聪明”。

这里面藏着一个巨大的概念偷换，而且偷换得极其自然，自然到几乎没人注意。

-奥赛题测的到底是什么？

这个问题你们有人想过吗...？🥲

奥赛题测的是在一个极端精巧的封闭规则系统里，找到一条极端精巧的路径抵达唯一正确答案的能力。

这个能力有三个特征：

条件完备、规则明确、答案唯一。

这很”炫”。但你想一下自己日常用AI做啥呢？——梳理一段混乱的想法、写一个方案的初稿、排查一个说不清楚的问题、在一堆互相矛盾的信息里找到方向。这些任务的特征恰好是反过来的：

条件残缺、规则模糊、没有唯一正确答案。

一个能做IMO金牌题的模型，和一个能在你说不清楚需求的时候帮你理出头绪的模型——这两种能力之间，几乎没有传递性不是吗？就像一个不会做奥数题的人，完全可以是一个极其优秀的工程师、医生、教师或写作者。AI也一样啊。

-考卷本身就靠不住。

退一步说，就算我们接受”做题能说明问题”这个前提，这张考卷本身也千疮百孔啊。且你还很可能意识不到这一点。

斯坦福大学的研究团队审查了数千个AI基准测试后发现，约5%的基准存在严重缺陷——有缺陷的基准会错误抬高表现差的模型，同时冤枉更好的模型。5%听起来不多，但当整个行业的研发方向、资金流向、甚至政府监管都建立在这些分数之上，系统性的评估错误就不再是技术细节了吧？

欧盟联合研究中心对约110项研究做了跨学科元综述，总结出当前AI基准的九大问题。其中一个核心发现直击要害：很多基准测试根本没有在测量它们声称要测量的东西，甚至连自己试图评估什么都缺乏清晰定义。

那是不是代表...我们用一张自己都不确定在考什么的卷子，去判断AI聪不聪明。这不是搞笑呢嘛...草台班子的风都吹到赛博世界啦？

-考场上的舞弊

考卷设计有问题是”制度缺陷”，接下来要说的就更像一出黑色喜剧了。

2025年4月，Meta发布Llama 4系列模型，其中Maverick在LMArena排行榜上一度冲到第二名。光芒万丈。然而很快，开发者们发现提交给排行榜的版本和实际公开版本存在显著差异。公开版重新评测后，排名从第二直接跌到第三十二....

事后Meta首席AI科学家Yann LeCun在接受《金融时报》采访时承认，团队在不同基准测试中使用了不同的模型来获取更好的成绩。

一个顶级科技公司，在AI领域最核心的能力评估环节上，做出了和学生替考本质相同的事情。这不是道德问题。这是激励机制的必然结果——当一个数字足以决定市场叙事，所有人都会想办法把数字做得尽可能好看。有研究者干脆把当前的AI基准评估实践称为”雷区” 。

它可能早就见过这张卷子！

比公然舞弊更普遍、也更难察觉的，是数据污染。

大模型的训练数据来自整个互联网。基准测试的题目也在互联网上。这意味着模型在”考试”之前，极有可能已经”见过”了试题——包括那些奥赛题。研究显示，在问答类基准中训练数据和测试数据的重叠率超过45%；GPT-4在被遮挡答案的MMLU测试里，57%的情况能推断出正确答案，远超随机概率。

更棘手的是，即使采用了去污染措施，简单的变体——比如改写措辞或翻译——就能轻松绕过检测。研究人员发现，如果不消除这些变体，一个130亿参数的模型就能在基准测试上过拟合，达到与GPT-4相当的成绩。
一个学生考前把历年真题全做了一遍，然后告诉你他是裸考满分。

你不能说他完全没有能力，但你也没法说这个分数反映了他的真实水平。当我们用这样的分数去排名、去定义”谁更聪明”的时候，我们到底在定义什么？

没听懂我给你展示一下你钟老师的跨学科本领。我常家长说不要太在乎机构的阶段性测试的考试成绩。因为机构要卖课啊，我先给你孩子把我要考的全教一遍，然后给他们考原题，他的成绩高，你认为他进步了然后增强了付费意愿。

是不是一个道理？这么简单不至于想不通吧。🥲

所以..为什么我们这么迷恋竞赛题？

说到底，是因为竞赛题给了我们一种控制感。

面对一个我们并不真正理解的东西，高难度的题目提供了一个看起来很”硬核”的评价框架——它有标准答案，它具象、可以打分，可以排名，可以用一个数字把复杂的判断简化成”谁比谁强”。它让我们觉得自己”看懂了”AI。

但这种控制感是虚假的。

基准测试的根源往往是商业性的，被用来向客户展示AI能力，这可能抑制了彻底的自我批评。我们以为自己在用科学方法评估AI，实际上我们可能只是在看一场精心编排的才艺表演。

-那应该怎么看AI？

我不打算开一个替代方案的药方。因为我也不知道呢...

“用做题考AI是陷阱”这件事本身值得被看见，不需要附带一套完整的新评估体系才有资格被说出来。

但有一件事我确定：作为一个每天都在和AI协作的人，AI最让我惊讶的时刻，没有一次发生在它”答对题”的时候。

让我惊讶的是这些时刻——它把我一段混乱的、连我自己都没理清楚的想法，梳理成了一个我没预料到的结构。它在我描述一个技术问题的时候，察觉到我真正卡住的地方不是我以为的那个地方。它在我给出一个模糊的方向时，生成了一个我不会想到、但确实更好的方案。

这些能力，没有任何一道奥赛题能测出来。因为奥赛题的世界是条件完备、答案唯一的。而我们真正需要AI帮忙的世界，从来都不是...

任何一个当过老师的人都知道——你最了解一个学生的时刻，从来不是看他的竞赛奖牌的时候，而是看他面对一个没有标准答案的问题时，眼睛里是兴奋还是恐惧...

AI也一样。你想知道它到底行不行，别考它。用它。

时间会给你答案...体验会给你答案... 放过它吧。

发布于陕西