谷歌Gemini 3升级版发布

谷歌发布了 Gemini 3 Deep Think升级版本。

在人类的最后考试（一项旨在测试现代前沿模型极限的基准测试）中，取得了新的 SOTA（48.4%，不使用任何工具）。

在 ARC-AGI-2 测试中取得了84.6% 的成绩，并经 ARC Prize 基金会验证。

在 Codeforces 上取得了3455 Elo 分数，（Codeforces 是一个包含各种竞技编程挑战的基准测试平台）之前的最佳成绩是来自一年多以前 OpenAI o3 的 2727 分，排名第 175。

发布于安徽