投星资产 26-02-20 08:42
微博认证:深圳市前海朗马投星贸易发展有限公司 投资总监

谷歌新模型又炸天了,老美光芯片又大涨了。

在业界最为关注的性能对标中,Gemini 3.1 Pro展现出了令人窒息的统治力。

在人类最后考试(HLE)中,Gemini 3.1 Pro在零工具辅助下拿下了44.4%的成绩,将GPT-5.2(34.5%)和Opus 4.6(40.0%)逼到了墙角。

在ARC-AGI-2测试中,Gemini 3.1 Pro以77.1%的逆天成绩一骑绝尘,把刚刚登顶没两天的Opus 4.6(68.8%)甩在了身后。

更让人震撼的,是它在代码和AI智能体领域的跨越式进化。

在LiveCodeBench Pro中,狂砍2887的Elo积分,断层领先同侪;

在Terminal-Bench 2.0中,凭借68.5%的得分压制了专攻代码的GPT-5.3-Codex(64.7%);

在APEX-Agents中,更是以33.5%的成绩傲视群雄,相比之下,Opus 4.6得分为29.8%,而GPT-5.2仅有23.0%。

发布于 河南