#模型时代# 一个新模型基准测试集：人类最后的考试。先要说一下，现在发表AI论文，成果好不好先放在一边，标题那必须要吸引眼球。Scale AI和Center for AI Safety联合推出的这个模型基准测试集"Humanity's Last Exam"(HLE)就具备吸睛要素了，口气那是相当不小。感觉Scale AI现在是瞄准模型测试这个

#模型时代# 一个新模型基准测试集：人类最后的考试。

先要说一下，现在发表AI论文，成果好不好先放在一边，标题那必须要吸引眼球。Scale AI和Center for AI Safety联合推出的这个模型基准测试集"Humanity's Last Exam"(HLE)就具备吸睛要素了，口气那是相当不小。

感觉Scale AI现在是瞄准模型测试这个新方向了。毕竟Paul Graham说过，大模型的世界就是“提示”和“评估”，这事儿比数据标注拉风的多。

HLE的核心创新在于其独特的定位。这是一个包含3000道极具挑战性问题的多模态测试集，涵盖数学、人文科学和自然科学等数十个学科领域。官方网站在：lastexam.ai/。大家可以看一下图一、图二，目前前沿模型准确率也不到10%，分别是Deepseek的R1和OpenAI的R1。测试题Demo见图三。反正我看了几道题目，没一道会的。

强调三个关键特征：
首先，每个问题都经过精心设计，确保答案明确且可验证，但不能通过简单的网络检索获得答案。其次，问题由来自全球500多家机构的近1000位领域专家贡献，主要是教授、研究人员和研究生。第三，所有问题都经过了与顶级AI模型的对抗测试，只有那些模型无法正确回答的问题才会进入审核环节。

从技术角度看，HLE采用了严格的多轮评审机制。首先是AI难度检验，确保问题能够"难倒"现有模型。然后是两轮专家评审：第一轮关注问题质量和改进建议，第二轮则由组织者和资深评审专家进行最终筛选。这种机制保证了测试集的高质量和挑战性。

目前看，最强大的AI模型在HLE上的表现都相当有限，准确率普遍低于10%。更值得注意的是，模型在这些困难问题上表现出严重的校准误差，往往以很高的置信度给出错误答案，而不是承认不确定性。但这个基准测试仍有改进空间。比如，它主要聚焦于封闭性的学术问题，这只是AI能力的一个维度。

另外，之前的epoch AI的frontiermath数据集其实也是号称由人类专家贡献，但是最近被爆出有OpenAI投资，不排除OpenAI提前看过这些题目数据。

所以HLE说，他们公开发布这些问题，同时保留了一个私有的测试集，用于评估模型是否过度拟合。

发布于韩国