谷歌新模型性能领先

谷歌新模型又炸天了，老美光芯片又大涨了。

在业界最为关注的性能对标中，Gemini 3.1 Pro展现出了令人窒息的统治力。

在人类最后考试（HLE）中，Gemini 3.1 Pro在零工具辅助下拿下了44.4%的成绩，将GPT-5.2（34.5%）和Opus 4.6（40.0%）逼到了墙角。

在ARC-AGI-2测试中，Gemini 3.1 Pro以77.1%的逆天成绩一骑绝尘，把刚刚登顶没两天的Opus 4.6（68.8%）甩在了身后。

更让人震撼的，是它在代码和AI智能体领域的跨越式进化。

在LiveCodeBench Pro中，狂砍2887的Elo积分，断层领先同侪；

在Terminal-Bench 2.0中，凭借68.5%的得分压制了专攻代码的GPT-5.3-Codex（64.7%）；

在APEX-Agents中，更是以33.5%的成绩傲视群雄，相比之下，Opus 4.6得分为29.8%，而GPT-5.2仅有23.0%。

发布于河南