成一虫 26-03-27 07:38
微博认证:历史博主

转发(出处:微信公众号,新智元):全球唯一尚未饱和的智能体基准测试ARC-AGI-3出炉了,直接血洗了全球顶尖大模型。在这个测试中,人类得分100%,AI的得分普遍低于1%。

原因是,没有提示,没有预训练,得现场现学,现场互动、预测、摸索,暴力不断穷举得分会倒扣。

结果AI根本不行。

上一代测试中还能拿下69.2%高分的「模范生」Opus 4.6,在ARC-AGI-3面前直接现了原形,得分仅为0.2%。

发布于 北京