量子位
25-11-19 08:37 微博认证:量子位官方微博

#谷歌Gemini3鲨疯了##纯靠Gemini3做4399小游戏#

谷歌Gemini 3 Pro进步太大了!与上一代2.5 Pro之间差出一个GPT-5.1[doge]。

新模型在几乎所有基准测试中超过GPT-5.1和Claude4.5,包括人类最后的考试、ARC-AGI-2这些专为AGI准备的测试,数学AIME 2025带工具拿满分。【图1】

用户投票的大模型竞技场也是一样,马斯克的Grok4.1昨天才刷完榜(http://t.cn/AX2FFEkY),今天就被反超了。【图2】

测试期间看Gemini 3模拟Windows、Mac、Linux三大操作系统界面(http://t.cn/AX2FFDR2),还以为它只擅长设计前端呢,原来设计出的程序他真能用啊。

设计一个乐高编辑器,一次尝试就完成了界面+负责空间逻辑和所有编辑器功能。【图3】

谷歌官方用Gemini 3 Pro设计的游戏更是发布在了油管上可以直接玩,纯靠AI都能搭起一个4399小游戏网了你敢信?【视频4】

在智能体任务上,Gemini 3 Pro不光擅长编程,还强化了现实生活任务的长期规划能力,模拟管理自动售货机一年赚了5000美元,取得所有模型中最高的收入。【图5】

从今天起,谷歌宣布“以整个公司的体量”发布Gemini 3系列模型,包括首次在发布当天就将Gemini整合进搜索,上线独立APP,还推出全新的智能体开发平台。

还有一个更强Gemini 3 Deep Think深度思考模式,正在路上。

至于这么大的能力飞跃如何实现的,只有研究VP Oriol Vinyals透露了一点:预训练还没结束,后训练也还有很大改进空间。【图6】

Gemini系列这几年的演进,有点像打怪升级了,每一代都在补上一代的短板,然后在下一代里又把所有能力都打磨一遍。

1代奠定根基,把多模态能力和超长上下文打通,Gemini成为第一个能够处理百万级tokens上下文的大模型。

2代就开始变得有行动力,在1代的基础上记住大量信息后,它就整合海量信息进行决策和规划,这也为智能体能力铺了路。

到了Gemini 2.5,谷歌则开始认真搞思考和推理,给它加了思考引擎,让它能做更深入的推理、链式思考,甚至模仿人类分步解决问题。

现在的3代更是能力的集大成者,深度融合多模态、推理、Agent能力这些特性一起进化,主打“你敢想,我实现”。