ARC-AGI-3基准测试未饱和

今天发布了ARC-AGI-3

目前唯一“未饱和”的基准测试：其他测试往往被模型“刷分”，而 ARC-AGI-3 仍然保持挑战性。

有135个全新环境，近 1000 个关卡（如视频二）：完全由人工设计，确保没有训练数据泄漏。

全部人类可解，但AI几乎全败。人类通关率接近100%，而现有AI得分不到 1%。

这形成了巨大差距，证明现阶段的 AI 并不具备所谓的通用智能（AGI）。

尤其是实时适应能力。

发布于黑龙江