嚼物理的小锺 26-03-31 14:59
微博认证:音乐博主

用做题来考AI,是个挺高级的误会。

人有一种根深蒂固的习惯:遇到任何新物种新东西,第一反应是出题考考它。

这个习惯大家大概是从小学就继承来的。老师判断你聪不聪明,靠的是卷子。家长判断补习值不值,靠的也是卷子。

现在AI来了,大家自然而然地掏出了卷子——而且不是随便什么卷子,是最难的那种。

奥数题、物理竞赛、高考压轴..一套组合拳打下去,谁的正确率高,谁就是”最强AI”。各大模型的排行榜,本质上就是一张巨大的竞赛成绩单。

这个思路看上去无懈可击。但 它是个巨大的陷阱。(我的观点而已可以被反驳)。

先说清楚我不反对什么:

我不反对测试。让AI做基础数学题、检验它的逻辑是否连贯、语言是否通顺、事实是否准确——这些相当于体检,是有意义的。

你得先确认这个东西心肺功能正常,才能谈别的。

我反对的是另一件事:用奥赛级别的竞技题,作为衡量AI”聪不聪明”的核心判据。然后用这个判据来排名、定价、做购买决策,甚至形成一种公众认知——“这个AI比那个AI聪明”。

这里面藏着一个巨大的概念偷换,而且偷换得极其自然,自然到几乎没人注意。

-奥赛题测的到底是什么?

这个问题你们有人想过吗...?🥲

奥赛题测的是在一个极端精巧的封闭规则系统里,找到一条极端精巧的路径抵达唯一正确答案的能力。

这个能力有三个特征:

条件完备、规则明确、答案唯一。

这很”炫”。但你想一下自己日常用AI做啥呢?——梳理一段混乱的想法、写一个方案的初稿、排查一个说不清楚的问题、在一堆互相矛盾的信息里找到方向。这些任务的特征恰好是反过来的:

条件残缺、规则模糊、没有唯一正确答案。

一个能做IMO金牌题的模型,和一个能在你说不清楚需求的时候帮你理出头绪的模型——这两种能力之间,几乎没有传递性不是吗?就像一个不会做奥数题的人,完全可以是一个极其优秀的工程师、医生、教师或写作者。AI也一样啊。

-考卷本身就靠不住。

退一步说,就算我们接受”做题能说明问题”这个前提,这张考卷本身也千疮百孔啊。且你还很可能意识不到这一点。

斯坦福大学的研究团队审查了数千个AI基准测试后发现,约5%的基准存在严重缺陷——有缺陷的基准会错误抬高表现差的模型,同时冤枉更好的模型 。5%听起来不多,但当整个行业的研发方向、资金流向、甚至政府监管都建立在这些分数之上,系统性的评估错误就不再是技术细节了吧?

欧盟联合研究中心对约110项研究做了跨学科元综述,总结出当前AI基准的九大问题 。其中一个核心发现直击要害:很多基准测试根本没有在测量它们声称要测量的东西,甚至连自己试图评估什么都缺乏清晰定义 。

那是不是代表...我们用一张自己都不确定在考什么的卷子,去判断AI聪不聪明。这不是搞笑呢嘛...草台班子的风都吹到赛博世界啦?

-考场上的舞弊

考卷设计有问题是”制度缺陷”,接下来要说的就更像一出黑色喜剧了。

2025年4月,Meta发布Llama 4系列模型,其中Maverick在LMArena排行榜上一度冲到第二名 。光芒万丈。然而很快,开发者们发现提交给排行榜的版本和实际公开版本存在显著差异 。公开版重新评测后,排名从第二直接跌到第三十二....

事后Meta首席AI科学家Yann LeCun在接受《金融时报》采访时承认,团队在不同基准测试中使用了不同的模型来获取更好的成绩 。

一个顶级科技公司,在AI领域最核心的能力评估环节上,做出了和学生替考本质相同的事情。这不是道德问题。这是激励机制的必然结果——当一个数字足以决定市场叙事,所有人都会想办法把数字做得尽可能好看。有研究者干脆把当前的AI基准评估实践称为”雷区” 。

它可能早就见过这张卷子!

比公然舞弊更普遍、也更难察觉的,是数据污染。

大模型的训练数据来自整个互联网。基准测试的题目也在互联网上。这意味着模型在”考试”之前,极有可能已经”见过”了试题——包括那些奥赛题。研究显示,在问答类基准中训练数据和测试数据的重叠率超过45%;GPT-4在被遮挡答案的MMLU测试里,57%的情况能推断出正确答案,远超随机概率 。

更棘手的是,即使采用了去污染措施,简单的变体——比如改写措辞或翻译——就能轻松绕过检测 。研究人员发现,如果不消除这些变体,一个130亿参数的模型就能在基准测试上过拟合,达到与GPT-4相当的成绩 。
一个学生考前把历年真题全做了一遍,然后告诉你他是裸考满分。

你不能说他完全没有能力,但你也没法说这个分数反映了他的真实水平。当我们用这样的分数去排名、去定义”谁更聪明”的时候,我们到底在定义什么?

没听懂我给你展示一下你钟老师的跨学科本领。我常家长说不要太在乎机构的阶段性测试的考试成绩。因为机构要卖课啊,我先给你孩子把我要考的全教一遍,然后给他们考原题,他的成绩高,你认为他进步了然后增强了付费意愿。

是不是一个道理?这么简单不至于想不通吧。🥲

所以..为什么我们这么迷恋竞赛题?

说到底,是因为竞赛题给了我们一种控制感。

面对一个我们并不真正理解的东西,高难度的题目提供了一个看起来很”硬核”的评价框架——它有标准答案,它具象、可以打分,可以排名,可以用一个数字把复杂的判断简化成”谁比谁强”。它让我们觉得自己”看懂了”AI。

但这种控制感是虚假的。

基准测试的根源往往是商业性的,被用来向客户展示AI能力,这可能抑制了彻底的自我批评 。我们以为自己在用科学方法评估AI,实际上我们可能只是在看一场精心编排的才艺表演。

-那应该怎么看AI?

我不打算开一个替代方案的药方。因为我也不知道呢...

“用做题考AI是陷阱”这件事本身值得被看见,不需要附带一套完整的新评估体系才有资格被说出来。

但有一件事我确定:作为一个每天都在和AI协作的人,AI最让我惊讶的时刻,没有一次发生在它”答对题”的时候。

让我惊讶的是这些时刻——它把我一段混乱的、连我自己都没理清楚的想法,梳理成了一个我没预料到的结构。它在我描述一个技术问题的时候,察觉到我真正卡住的地方不是我以为的那个地方。它在我给出一个模糊的方向时,生成了一个我不会想到、但确实更好的方案。

这些能力,没有任何一道奥赛题能测出来。因为奥赛题的世界是条件完备、答案唯一的。而我们真正需要AI帮忙的世界,从来都不是...

任何一个当过老师的人都知道——你最了解一个学生的时刻,从来不是看他的竞赛奖牌的时候,而是看他面对一个没有标准答案的问题时,眼睛里是兴奋还是恐惧...

AI也一样。你想知道它到底行不行,别考它。用它。​​​​​​​​​​​​​​​​

时间会给你答案...体验会给你答案... 放过它吧。

发布于 陕西