欧巴聊AI 26-02-13 09:34
微博认证:AI博主

我的天,Gemini 3 Deep Think 重大升级,这跑分太令人震惊了。

核心是如下几点:

1、在“人类最终考试”基准测试中创下新纪录(48.4%,无工具辅助),该基准旨在测试当代前沿模型的极限。

2、在 ARC-AGI-2 上取得了前所未有的 84.6%准确率,该结果已获得 ARC Prize 基金会的验证。

3、在 Codeforces 平台实现了惊人的 3455 Elo 评分,该基准包含了一系列极具挑战性的编程竞赛题目,Gemini 3 Deep Think 已经相当于世界排名第八的顶尖竞技程序员的水平。

4、达到了2025年国际数学奥林匹克竞赛的金牌级别表现水平。

目前只有 Ultra 用户可以用,我去实测一波,晚点发出来。

#How I AI##科技先锋官#

发布于 北京