我的天,Gemini 3 Deep Think 重大升级,这跑分太令人震惊了。
核心是如下几点:
1、在“人类最终考试”基准测试中创下新纪录(48.4%,无工具辅助),该基准旨在测试当代前沿模型的极限。
2、在 ARC-AGI-2 上取得了前所未有的 84.6%准确率,该结果已获得 ARC Prize 基金会的验证。
3、在 Codeforces 平台实现了惊人的 3455 Elo 评分,该基准包含了一系列极具挑战性的编程竞赛题目,Gemini 3 Deep Think 已经相当于世界排名第八的顶尖竞技程序员的水平。
4、达到了2025年国际数学奥林匹克竞赛的金牌级别表现水平。
目前只有 Ultra 用户可以用,我去实测一波,晚点发出来。
#How I AI##科技先锋官#
发布于 北京
