全球最难AGI测试上线！人类满分通关，AI集体破防🤯人类两三步解开的谜题，AI要转几百圈还摸不着北今天AI圈炸了💥ARC-AGI-3——号称“全球最难AGI测试”正式亮相结果让所有人倒吸一口凉气：人类选手：100%满分✅AI阵营：得分普遍不到1%❌最惨的是Anthropic的Opus 4.6上一代测试还能拿69

全球最难AGI测试上线！人类满分通关，AI集体破防🤯
人类两三步解开的谜题，AI要转几百圈还摸不着北

今天AI圈炸了💥

ARC-AGI-3——号称“全球最难AGI测试”正式亮相
结果让所有人倒吸一口凉气：

人类选手：100%满分✅
AI阵营：得分普遍不到1%❌

最惨的是Anthropic的Opus 4.6
上一代测试还能拿69.2%的“学霸”
这次直接0.2% 🤡
连1%的零头都够不着

黄仁勋还说AGI近在眼前？
这数据告诉我：现在的AI，连AGI的门槛都还没摸到

从“填空题”到“开盲盒”🎲
ARC-AGI前两代已经够变态了
那些像幼儿园连线题的网格任务
让无数大模型铩羽而归

第三代直接升级成另一个物种：
150多个交互式游戏 + 1000多个关卡
但——没有说明书❗

没有文字提示，没有目标指引
AI被扔进去只能自己瞎摸索
点这里、拖那里、观察变化、猜规则

考的不是死记硬背
而是最原始的智能：
在完全陌生的环境里，从零开始摸清门道

这个评分公式，太狠了😱
ARC的评分方式直接把AI后路堵死：

(人类步数 / AI步数)²

人类10步能搞定的事
AI用100步 → 得分1%
AI用200步 → 得分0.25%
AI用500步 → 得分0.04%

多试一步，分数就掉一大截
以前AI可以暴力穷举
现在？多走一步都是扣分项

Opus 4.6的0.2%意味着：
人类10步能解决的事
AI用了224步🤯
这已经不是“笨”了
这是在原地画圈画到天荒地老

350步 vs 两三下👀
预览期1200多名人类玩家参与
大部分人轻松过关，还玩得挺开心

AI这边呢？
所有前沿大模型得分全在1%以下

预览期冠军StochasticGoose（还不是大模型）
在一款调水位游戏里
开局就花了350步做无效点击

350步啊❗
人类大概只需要点两三下就能搞明白的事

更扎心的是：
排行榜前三名全不是大模型方案
那些接了大模型的智能体
成绩反而垫底，有的直接崩溃跑不动

AI的“死法”太真实了😅
ARC团队发现一个现象：
AI的典型死法是 “以为自己玩的是另一个游戏”

被扔进新环境
看到初始画面就给自己“脑补”规则
然后沿着错误理解疯狂执行
越走越偏

它不会停下来想：
“我怎么一直没收到正面反馈？”
“是不是我一开始就想错了？”

参数越多、预训练知识越丰富的模型
越容易把陌生环境“脑补”成见过的
然后死磕到底

反而是轻量级智能体
因为没有“先入为主”的包袱
老老实实从环境反馈中学习

“背答案”被实锤了🔨
为什么要推ARC-AGI-3？
官方报告透露：
以前的测试已经被“污染”了

Gemini 3在推理中自动用了ARC-AGI的映射关系
（比如“3=绿色”）
但提示词里根本没提过

这强烈暗示：
这些模型的训练数据里
已经包含了ARC-AGI的任务

以前的测试考的是“这题我背过答案”
ARC-AGI-3考的是“这题你绝对没见过，自己想办法”

人类天生就是玩新游戏的高手
AI不过是个背答案的“书呆子”

戳破的“AI神话”💔
这场测试撕开了大模型最脆弱的窗户纸：
AI根本不会“反思自己”

人类玩新游戏时
脑子里会有一个声音不断盘旋：
“刚才那招好像不对，是不是理解错了？”
“要不换个思路试试？”

这是与生俱来的自省能力
能在行动中停下来，审视判断，及时掉头

而AI呢？
就像一个上了发条的机器
认准一个方向就死磕到底
撞了南墙也不回头
因为它压根没有“停下来想想”这个功能

结语：AGI，比我们想的要远得多🌌
目前挑战赛奖金池85万美元
70万美元给“满分通关者”
必须完全开源，无网环境评估

ARC-AGI-3告诉我们：
真正的智能不是记住了多少答案
而是在从未见过的世界里
知道如何找到答案

人类面对全新游戏的本能：
观察→假设→验证→修正
在我们身上几乎是条件反射

而AI，连入门都谈不上

通往AGI的路
比我们想象的要漫长得多
这条路的第一关
AI才刚刚看清题目

#agi#

发布于江苏