高飞 25-01-23 23:23
微博认证:至顶科技创始人 AI博主

#模型时代# 一个新模型基准测试集:人类最后的考试。

先要说一下,现在发表AI论文,成果好不好先放在一边,标题那必须要吸引眼球。Scale AI和Center for AI Safety联合推出的这个模型基准测试集"Humanity's Last Exam"(HLE)就具备吸睛要素了,口气那是相当不小。

感觉Scale AI现在是瞄准模型测试这个新方向了。毕竟Paul Graham说过,大模型的世界就是“提示”和“评估”,这事儿比数据标注拉风的多。

HLE的核心创新在于其独特的定位。这是一个包含3000道极具挑战性问题的多模态测试集,涵盖数学、人文科学和自然科学等数十个学科领域。官方网站在:lastexam.ai/。大家可以看一下图一、图二,目前前沿模型准确率也不到10%,分别是Deepseek的R1和OpenAI的R1。测试题Demo见图三。反正我看了几道题目,没一道会的。

强调三个关键特征:
首先,每个问题都经过精心设计,确保答案明确且可验证,但不能通过简单的网络检索获得答案。其次,问题由来自全球500多家机构的近1000位领域专家贡献,主要是教授、研究人员和研究生。第三,所有问题都经过了与顶级AI模型的对抗测试,只有那些模型无法正确回答的问题才会进入审核环节。

从技术角度看,HLE采用了严格的多轮评审机制。首先是AI难度检验,确保问题能够"难倒"现有模型。然后是两轮专家评审:第一轮关注问题质量和改进建议,第二轮则由组织者和资深评审专家进行最终筛选。这种机制保证了测试集的高质量和挑战性。

目前看,最强大的AI模型在HLE上的表现都相当有限,准确率普遍低于10%。更值得注意的是,模型在这些困难问题上表现出严重的校准误差,往往以很高的置信度给出错误答案,而不是承认不确定性。但这个基准测试仍有改进空间。比如,它主要聚焦于封闭性的学术问题,这只是AI能力的一个维度。

另外,之前的epoch AI的frontiermath数据集其实也是号称由人类专家贡献,但是最近被爆出有OpenAI投资,不排除OpenAI提前看过这些题目数据。

所以HLE说,他们公开发布这些问题,同时保留了一个私有的测试集,用于评估模型是否过度拟合。

发布于 韩国