Henry解码AI 26-03-27 15:19

全球最难AGI测试上线!人类满分通关,AI集体破防🤯
人类两三步解开的谜题,AI要转几百圈还摸不着北

今天AI圈炸了💥

ARC-AGI-3——号称“全球最难AGI测试”正式亮相
结果让所有人倒吸一口凉气:

人类选手:100%满分✅
AI阵营:得分普遍不到1%❌

最惨的是Anthropic的Opus 4.6
上一代测试还能拿69.2%的“学霸”
这次直接0.2% 🤡
连1%的零头都够不着

黄仁勋还说AGI近在眼前?
这数据告诉我:现在的AI,连AGI的门槛都还没摸到

从“填空题”到“开盲盒”🎲
ARC-AGI前两代已经够变态了
那些像幼儿园连线题的网格任务
让无数大模型铩羽而归

第三代直接升级成另一个物种:
150多个交互式游戏 + 1000多个关卡
但——没有说明书❗

没有文字提示,没有目标指引
AI被扔进去只能自己瞎摸索
点这里、拖那里、观察变化、猜规则

考的不是死记硬背
而是最原始的智能:
在完全陌生的环境里,从零开始摸清门道

这个评分公式,太狠了😱
ARC的评分方式直接把AI后路堵死:

(人类步数 / AI步数)²

人类10步能搞定的事
AI用100步 → 得分1%
AI用200步 → 得分0.25%
AI用500步 → 得分0.04%

多试一步,分数就掉一大截
以前AI可以暴力穷举
现在?多走一步都是扣分项

Opus 4.6的0.2%意味着:
人类10步能解决的事
AI用了224步🤯
这已经不是“笨”了
这是在原地画圈画到天荒地老

350步 vs 两三下👀
预览期1200多名人类玩家参与
大部分人轻松过关,还玩得挺开心

AI这边呢?
所有前沿大模型得分全在1%以下

预览期冠军StochasticGoose(还不是大模型)
在一款调水位游戏里
开局就花了350步做无效点击

350步啊❗
人类大概只需要点两三下就能搞明白的事

更扎心的是:
排行榜前三名全不是大模型方案
那些接了大模型的智能体
成绩反而垫底,有的直接崩溃跑不动

AI的“死法”太真实了😅
ARC团队发现一个现象:
AI的典型死法是 “以为自己玩的是另一个游戏”

被扔进新环境
看到初始画面就给自己“脑补”规则
然后沿着错误理解疯狂执行
越走越偏

它不会停下来想:
“我怎么一直没收到正面反馈?”
“是不是我一开始就想错了?”

参数越多、预训练知识越丰富的模型
越容易把陌生环境“脑补”成见过的
然后死磕到底

反而是轻量级智能体
因为没有“先入为主”的包袱
老老实实从环境反馈中学习

“背答案”被实锤了🔨
为什么要推ARC-AGI-3?
官方报告透露:
以前的测试已经被“污染”了

Gemini 3在推理中自动用了ARC-AGI的映射关系
(比如“3=绿色”)
但提示词里根本没提过

这强烈暗示:
这些模型的训练数据里
已经包含了ARC-AGI的任务

以前的测试考的是“这题我背过答案”
ARC-AGI-3考的是“这题你绝对没见过,自己想办法”

人类天生就是玩新游戏的高手
AI不过是个背答案的“书呆子”

戳破的“AI神话”💔
这场测试撕开了大模型最脆弱的窗户纸:
AI根本不会“反思自己”

人类玩新游戏时
脑子里会有一个声音不断盘旋:
“刚才那招好像不对,是不是理解错了?”
“要不换个思路试试?”

这是与生俱来的自省能力
能在行动中停下来,审视判断,及时掉头

而AI呢?
就像一个上了发条的机器
认准一个方向就死磕到底
撞了南墙也不回头
因为它压根没有“停下来想想”这个功能

结语:AGI,比我们想的要远得多🌌
目前挑战赛奖金池85万美元
70万美元给“满分通关者”
必须完全开源,无网环境评估

ARC-AGI-3告诉我们:
真正的智能不是记住了多少答案
而是在从未见过的世界里
知道如何找到答案

人类面对全新游戏的本能:
观察→假设→验证→修正
在我们身上几乎是条件反射

而AI,连入门都谈不上

通往AGI的路
比我们想象的要漫长得多
这条路的第一关
AI才刚刚看清题目

#agi#

发布于 江苏