#Google发布Gemini3.1Pro#Gemini3.1 Pro在核心推理能力上更进一步。
在ARC-AGI-2(一个评估模型解决全新逻辑模式能力的基准测试)测试中,3.1 Pro获得了77.1%的验证分数,在推理表现上达到3 Pro的2倍。
其他专业领域都有突破:
学科知识:在 GPQA 钻石级测试中得分为 94.3%;
编码:在 LiveCodeBench Pro 上 Elo 得分为 2887,在 SWE-Bench Verified 上得分为 80.6%;
多模态理解:在 MMMLU 测试中达到了 92.6%。
即日起,3.1 Pro 将陆续上线。#过个有AI年##HOW I AI#
发布于 安徽
