Transformer-周 25-03-23 15:53
微博认证:AI博主

现在都在传 一个rumor ,deepseekR2 在ARC-AGI上得了90%以上的准确率.....
​顺变说一下前一代冠军是O3 high,成绩是87.5%, 而标准计算版只有75%的准确率,然后做一次测试的成本是1500到2500美金[二哈]。
题目都是类似智商逻辑测验题,比如图2:
​带有色块的网格阵列(以文本形式表述,用数字代表颜色),大模型需要观察每道题目中3个输入-输出示例,然后根据规律填充新的空白网格(至少说明R2是多模态的,要不没资格做这个测试)
​​人类中智商在140左右的可以作对95%的题

发布于 日本