转发(出处:微信公众号,新智元):全球唯一尚未饱和的智能体基准测试ARC-AGI-3出炉了,直接血洗了全球顶尖大模型。在这个测试中,人类得分100%,AI的得分普遍低于1%。
原因是,没有提示,没有预训练,得现场现学,现场互动、预测、摸索,暴力不断穷举得分会倒扣。
结果AI根本不行。
上一代测试中还能拿下69.2%高分的「模范生」Opus 4.6,在ARC-AGI-3面前直接现了原形,得分仅为0.2%。
发布于 北京
转发(出处:微信公众号,新智元):全球唯一尚未饱和的智能体基准测试ARC-AGI-3出炉了,直接血洗了全球顶尖大模型。在这个测试中,人类得分100%,AI的得分普遍低于1%。
原因是,没有提示,没有预训练,得现场现学,现场互动、预测、摸索,暴力不断穷举得分会倒扣。
结果AI根本不行。
上一代测试中还能拿下69.2%高分的「模范生」Opus 4.6,在ARC-AGI-3面前直接现了原形,得分仅为0.2%。