说说 26-02-13 09:30
微博认证:互联网从业者

谷歌发布了 Gemini 3 Deep Think升级版本。

在人类的最后考试(一项旨在测试现代前沿模型极限的基准测试)中,取得了新的 SOTA(48.4%,不使用任何工具)。

在 ARC-AGI-2 测试中取得了84.6% 的成绩,并经 ARC Prize 基金会验证。

在 Codeforces 上取得了3455 Elo 分数,(Codeforces 是一个包含各种竞技编程挑战的基准测试平台)之前的最佳成绩是来自一年多以前 OpenAI o3 的 2727 分,排名第 175。

发布于 安徽