i陆三金
24-11-11 09:45 微博认证:AI博主

一个新出现的大模型数学测试基准 FrontierMath(链接:http://t.cn/A6nTkv6x),引发了 AI 研究员们的关注。在这个测试集中,即使是当今最先进的 AI 系统,包括 GPT-4 和 Gemini,也只能解决其中不到 2%的问题。

- 每个问题都需要专业数学家数小时的工作。
- 所有问题都是新颖且未发布的,消除了现有基准测试中困扰的数据污染问题。
- 与超过 60 位数学家合作创建,FrontierMath 涵盖了现代数学的整个范围,从代数几何到策梅洛-弗兰克尔集合论。

陶哲轩称,这些问题极具挑战性...我认为他们至少能抵抗 AI 几年。

Andrej Karpathy 评论这个基准:

「在 LLM 测评中的 Moravec 悖论

我对最新的“前沿数学”基准测试产生了兴趣,这个基准显示 LLM 仅能解出 2% 的题目。这个测试的提出是因为现有的数学基准中,LLM 的表现越来越优秀。令人感兴趣的是,尽管许多测试表明 LLM 正在逐步接近顶级专家的水平(例如在数学和编程方面),但要雇佣它们完成一些最简单的任务仍然不现实。LLM 能够解决复杂的封闭式问题,前提是问题描述能够在提示词中清晰呈现,但它们难以连贯地完成长时间的自主问题解决步骤,而人类却可以轻松应对这些任务。

这实际上是 Moravec 悖论的另一种体现。30 多年前,Moravec 观察到人类觉得简单或困难的事情,和计算机觉得简单或困难的事情之间可能存在反直觉的差异。例如,人类对计算机下棋的能力印象深刻,但象棋对于计算机来说实际上是一个封闭、确定的系统,具有离散的行动空间和完全可观测性等特点,因此相对简单。反之,人类可以轻松完成系鞋带或折衬衫的任务,而这些实际上是极其复杂的感知运动任务,对当前硬件和软件来说都非常具有挑战性。这就像 OpenAI 前段时间的魔方项目,大多数人关注的是魔方的解法(事实上解法相对简单),而忽略了让机器人手转动魔方一面是多么困难的任务。

因此,我非常欣赏这个“前沿数学”基准,我们应该设计更多这样的基准。但我也认为这是一个有趣的挑战——如何设计测评来评估那些“看似简单其实非常困难”的任务,比如长时间上下文处理的连贯性、自主性、常识、多模态输入输出的有效性等。如何构建好的“基础任务”测评?也就是那些你会期望任何入门级实习生都能完成的工作。」

Anthropic 联创 Jack Clark 评论:

「AI 怀疑者:LLM 只是个复制粘贴的工具,完全没有原创思考能力,基本上毫无价值。

关注 AI 进展的专业人士:我们与 60 位数学家合作设计了一项非常难的测试,现代系统的得分仅为 2%。希望这个基准测试能维持几年。

我认为,如果那些真正怀疑 LLM 的人花上 10 个小时去尝试让现代 AI 系统完成他们擅长的任务,他们会真正震惊于这些系统的能力。

其中带有一种悲剧色彩——许多对 LLM 持怀疑态度的人,也是在 AI 政治经济方面有深入思考的人。我认为,如果他们能对当前的进展有更真实的认知,那么他们的政治倡导会更有成效。」

他还有一条,「你是说这些东西很愚蠢?人们现在设计出了相当于数学测试的“篮球评测”,由 NBA 全明星们设计,因为这些东西在“篮球”方面已经变得如此强大,以至于任何其他测试都撑不过六个月就会被彻底击败。」

OpenAI 的 Noam Brown 评论:

「我非常喜欢看到一个新的评测对前沿模型来说通过率如此之低。这种感觉就像醒来时看到外面覆盖着一层崭新的白雪,完全未被触碰过。」

发布于 北京