ARC-AGI-3测试结果出炉

转发（出处：微信公众号，新智元）：全球唯一尚未饱和的智能体基准测试ARC-AGI-3出炉了，直接血洗了全球顶尖大模型。在这个测试中，人类得分100%，AI的得分普遍低于1%。

原因是，没有提示，没有预训练，得现场现学，现场互动、预测、摸索，暴力不断穷举得分会倒扣。

结果AI根本不行。

上一代测试中还能拿下69.2%高分的「模范生」Opus 4.6，在ARC-AGI-3面前直接现了原形，得分仅为0.2%。

发布于北京