一个新出现的大模型数学测试基准 FrontierMath（链接：http://t.cn/A6nTkv6x），引发了 AI 研究员们的关注。在这个测试集中，即使是当今最先进的 AI 系统，包括 GPT-4 和 Gemini，也只能解决其中不到 2%的问题。- 每个问题都需要专业数学家数小时的工作。- 所有问题都是新颖且未发布的，消除了现有

一个新出现的大模型数学测试基准 FrontierMath（链接：http://t.cn/A6nTkv6x），引发了 AI 研究员们的关注。在这个测试集中，即使是当今最先进的 AI 系统，包括 GPT-4 和 Gemini，也只能解决其中不到 2%的问题。

- 每个问题都需要专业数学家数小时的工作。
- 所有问题都是新颖且未发布的，消除了现有基准测试中困扰的数据污染问题。
- 与超过 60 位数学家合作创建，FrontierMath 涵盖了现代数学的整个范围，从代数几何到策梅洛-弗兰克尔集合论。

陶哲轩称，这些问题极具挑战性...我认为他们至少能抵抗 AI 几年。

Andrej Karpathy 评论这个基准：

「在 LLM 测评中的 Moravec 悖论

我对最新的“前沿数学”基准测试产生了兴趣，这个基准显示 LLM 仅能解出 2% 的题目。这个测试的提出是因为现有的数学基准中，LLM 的表现越来越优秀。令人感兴趣的是，尽管许多测试表明 LLM 正在逐步接近顶级专家的水平（例如在数学和编程方面），但要雇佣它们完成一些最简单的任务仍然不现实。LLM 能够解决复杂的封闭式问题，前提是问题描述能够在提示词中清晰呈现，但它们难以连贯地完成长时间的自主问题解决步骤，而人类却可以轻松应对这些任务。

这实际上是 Moravec 悖论的另一种体现。30 多年前，Moravec 观察到人类觉得简单或困难的事情，和计算机觉得简单或困难的事情之间可能存在反直觉的差异。例如，人类对计算机下棋的能力印象深刻，但象棋对于计算机来说实际上是一个封闭、确定的系统，具有离散的行动空间和完全可观测性等特点，因此相对简单。反之，人类可以轻松完成系鞋带或折衬衫的任务，而这些实际上是极其复杂的感知运动任务，对当前硬件和软件来说都非常具有挑战性。这就像 OpenAI 前段时间的魔方项目，大多数人关注的是魔方的解法（事实上解法相对简单），而忽略了让机器人手转动魔方一面是多么困难的任务。

因此，我非常欣赏这个“前沿数学”基准，我们应该设计更多这样的基准。但我也认为这是一个有趣的挑战——如何设计测评来评估那些“看似简单其实非常困难”的任务，比如长时间上下文处理的连贯性、自主性、常识、多模态输入输出的有效性等。如何构建好的“基础任务”测评？也就是那些你会期望任何入门级实习生都能完成的工作。」

Anthropic 联创 Jack Clark 评论：

「AI 怀疑者：LLM 只是个复制粘贴的工具，完全没有原创思考能力，基本上毫无价值。

关注 AI 进展的专业人士：我们与 60 位数学家合作设计了一项非常难的测试，现代系统的得分仅为 2%。希望这个基准测试能维持几年。

我认为，如果那些真正怀疑 LLM 的人花上 10 个小时去尝试让现代 AI 系统完成他们擅长的任务，他们会真正震惊于这些系统的能力。

其中带有一种悲剧色彩——许多对 LLM 持怀疑态度的人，也是在 AI 政治经济方面有深入思考的人。我认为，如果他们能对当前的进展有更真实的认知，那么他们的政治倡导会更有成效。」

他还有一条，「你是说这些东西很愚蠢？人们现在设计出了相当于数学测试的“篮球评测”，由 NBA 全明星们设计，因为这些东西在“篮球”方面已经变得如此强大，以至于任何其他测试都撑不过六个月就会被彻底击败。」

OpenAI 的 Noam Brown 评论：

「我非常喜欢看到一个新的评测对前沿模型来说通过率如此之低。这种感觉就像醒来时看到外面覆盖着一层崭新的白雪，完全未被触碰过。」

发布于北京