最新数学能力测试:人类水平优于人工智能!
据NatureNews最新报道,一项高度严谨的最新数学测试表明,尽管人工智能在解决数学问题方面取得了令人瞩目的突破,但现有系统仍未能达到顶尖人类专家的水平。
这项名为“First Proof项目”的测试,首次同时满足三个关键条件——题目达到研究级数学水平、内容未出现在训练数据中、并由数学家正式评分。测试结果6月10日已在First Proof网站上公布。
在本次测试中,研究人员向四个人工智能系统提出了十个全新的研究级数学问题。这些问题均出自十位数学研究人员之手,是他们已经解决但尚未发表或公开于任何文献及互联网上的原创成果。这一设计极大降低了模型仅凭记忆训练数据而作答的风险。随后,一组匿名的相关领域人类专家对模型的答案进行了评审。表现最佳的人工智能模型仅成功解决了十分之六的问题。
具体而言,来自苏黎世联邦理工学院(ETH)的团队表现最好,其系统通过一个由三大主流聊天机器人组成的“咨询委员会”来审核或改进ChatGPT的答案,最终解决了六个问题。排名第二的是加州大学洛杉矶分校(UCLA)的团队,他们在ChatGPT基础上构建了“约束”系统——即一个自动提问并由另一个聊天机器人反复核验答案的流程。紧随其后的是OpenAI团队(使用无约束的ChatGPT 5.5 Pro)和普林斯顿大学团队(主要使用带约束的Gemini 3.1 Pro)。
这项严谨测试的出台,正值人工智能在数学领域屡创佳绩之际。就在上个月,OpenAI开发的聊天机器人成功解决了已故数学家保罗·埃尔德什提出的一道80年前的数学难题。然而,First Proof项目的结果清晰地表明,在真正的研究级数学推理中,现有模型与顶尖人类数学家之间仍存在明显差距。测试的另一项重要创新在于其实施方式:在二月份的试验测试后,组织者吸取经验,使本次测试更加受控和系统化。他们要求模型完全自主地解决问题,并邀请了30名数学家审核答案。规则还要求所有参赛模型必须公开可用,因此谷歌专门为解决数学问题设计的Aletheia系统以及Anthropic未发布的完整版Claude Mythos均无法参与。OpenAI是唯一参与的大公司,其余三个系统来自UCLA、普林斯顿大学和ETH的学术团队。
卡内基梅隆大学计算机辅助推理研究所所长、数学家杰里米·阿维加德对此评价道,组织者对第二轮测试进行了更为谨慎的思考,使其更加受控和系统化。First Proof团队表示,未来的测试迭代将帮助研究人员评估人工智能模型对数学家的实际辅助价值,例如在自主解决问题、检验证明或担任研究助理等方面的能力。
#热门微博##科学新闻##人工智能##数学#
