现在都在传一个rumor ,deepseekR2 在ARC-AGI上得了90%以上的准确率.....顺变说一下前一代冠军是O3 high，成绩是87.5%, 而标准计算版只有75%的准确率，然后做一次测试的成本是1500到2500美金[二哈]。题目都是类似智商逻辑测验题，比如图2:带有色块的网格阵列（以文本形式表述，用数字代表颜色）

现在都在传一个rumor ,deepseekR2 在ARC-AGI上得了90%以上的准确率.....
顺变说一下前一代冠军是O3 high，成绩是87.5%, 而标准计算版只有75%的准确率，然后做一次测试的成本是1500到2500美金[二哈]。
题目都是类似智商逻辑测验题，比如图2:
带有色块的网格阵列（以文本形式表述，用数字代表颜色），大模型需要观察每道题目中3个输入-输出示例，然后根据规律填充新的空白网格（至少说明R2是多模态的，要不没资格做这个测试）
人类中智商在140左右的可以作对95%的题

发布于日本