今天发布了ARC-AGI-3
目前唯一“未饱和”的基准测试:其他测试往往被模型“刷分”,而 ARC-AGI-3 仍然保持挑战性。
有135个全新环境,近 1000 个关卡(如视频二):完全由人工设计,确保没有训练数据泄漏。
全部人类可解,但AI几乎全败。人类通关率接近100%,而现有AI得分不到 1%。
这形成了巨大差距,证明现阶段的 AI 并不具备所谓的通用智能(AGI)。
尤其是实时适应能力。
发布于 黑龙江
今天发布了ARC-AGI-3
目前唯一“未饱和”的基准测试:其他测试往往被模型“刷分”,而 ARC-AGI-3 仍然保持挑战性。
有135个全新环境,近 1000 个关卡(如视频二):完全由人工设计,确保没有训练数据泄漏。
全部人类可解,但AI几乎全败。人类通关率接近100%,而现有AI得分不到 1%。
这形成了巨大差距,证明现阶段的 AI 并不具备所谓的通用智能(AGI)。
尤其是实时适应能力。