全球顶尖大模型集体惨败 ARC-AGI-3 测试人类满分 AI 最高仅 0.2%
2026 年 3 月全球最难 AGI 测试 ARC-AGI-3 发布,直接血洗一众顶尖大模型,让 AI 圈震动!该测试中人类实现 100% 满分,而所有前沿 AI 得分均低于 1%,上一代佼佼者 Claude Opus 4.6 仅得 0.2%,印证当前 AI 距离真正 AGI 还不足 1%。
与前两代静态推理测试不同,ARC-AGI-3 打造 150 余个交互式游戏环境、超千个关卡,无任何指令提示,核心考察 AI 探索、建模、自主定目标、规划修正四大能力,直击人类智能核心。其评分规则极为严苛,按 (人类步数 / AI 步数)² 计算,不看通关只比效率,彻底堵死 AI 蛮力穷举的策略,多试一步分数便断崖式下跌。
千余名人类玩家轻松通关甚至速通,而 AI 冠军是基于 CNN 的非 LLM 智能体,仅得 12.58%,部分游戏中 AI 数百步无效操作,人类只需两三下;榜单前三均为非大模型方案,GPT-5.x 等前沿大模型反倒成绩垫底、频繁崩溃。
AI 惨败根源是缺乏元认知能力,易对陌生环境脑补错误框架且死磕到底,其离线数据驱动的学习模式,与人类在线交互、假设驱动的学习本质不同。目前该测试设 85 万美元奖金池,70 万终奖面向满分通关者,要求代码开源、无网评估,人类与 AI 的智能较量仍在继续。
