Gemini3.1 Pro核心能力升级

#Google发布Gemini3.1Pro#Gemini3.1 Pro在核心推理能力上更进一步。

在ARC-AGI-2（一个评估模型解决全新逻辑模式能力的基准测试）测试中，3.1 Pro获得了77.1%的验证分数，在推理表现上达到3 Pro的2倍。

其他专业领域都有突破:

学科知识:在 GPQA 钻石级测试中得分为 94.3%；
编码:在 LiveCodeBench Pro 上 Elo 得分为 2887，在 SWE-Bench Verified 上得分为 80.6%；
多模态理解：在 MMMLU 测试中达到了 92.6%。

即日起，3.1 Pro 将陆续上线。#过个有AI年##HOW I AI#

发布于安徽