蚁工厂
26-05-20 08:26 微博认证:科技博主

#谷歌IO2026#
Sundar Pichai劈柴哥在Google I/O 大会上的演讲文字版:

# I/O 2026:欢迎来到代理式 Gemini 时代

自上一次 I/O 以来,这一年非同寻常:我们持续发布产品,技术不断进步,整体发展速度非常快。现在,我们进入了 AI 周期中的一个阶段:人们希望在每天使用的产品里看到 AI 带来的真实价值。

我们一直非常专注于这一点。你会在今天 I/O 发布的产品和功能中看到这种努力。

距离我们把公司转向“AI-first”已经过去十年。我们仍然认为,AI 是推进 Google 使命、以规模化方式改善人们生活的最深远方式。

因此,我们一直采用差异化的全栈 AI 创新方式:从定制芯片与安全基础,到世界级研究与模型,再到触达数十亿人的产品与平台。

这种方式让我们能够更快迭代和创新,并让公司各个领域都被 AI 点亮。

令人惊叹的是,人们正在以各种方式使用 AI:学生用 Gemini app 备考期末,音乐人与艺术家把 Lyria、Veo 等生成式 AI 模型融入创作流程,开发者用 AI 编码并把想法变成现实。

## AI 在全栈范围内的势头

这些人们使用 AI 的故事,是衡量进展的最好方式。要理解人们采用 AI 的规模,还有一个很好的参考指标——tokens,也就是模型处理数据的基本单位,其中很多 token 都代表着一个正在被解决的问题。

两年前,我们在各个产品界面中每月处理 9.7 万亿个 token——这已经是一个巨大的数字。去年 I/O 时,这一数字增长到约 480 万亿。到今天,这个数字又增长了 7 倍,超过每月 3.2 千万亿。

这讲述了一个关于我们产品,以及其他人如何构建产品的重要故事,尤其是开发者和企业:

- 现在,每月有超过 850 万开发者在使用我们的模型构建新的应用和体验。
- 我们的模型 API 现在每分钟处理约 190 亿个 token。
- 过去 12 个月里,有超过 375 家 Google Cloud 客户分别处理了超过 1 万亿个 token,这代表了各行各业对 AI 的巨大需求。

## 产品势头

今天,我们有 13 款产品的用户数超过 10 亿。其中 5 款产品的用户数超过 30 亿。

Gemini 模型是更多人使用我们产品,以及人们更频繁使用这些产品的重要原因。

一切都从 Search 开始。Search 正在把生成式 AI 的好处带给比世界上任何其他产品都更多的人。AI Overviews 现在拥有超过 25 亿月活用户。AI Mode 则是一次突破,是 Search 史上最大的一次升级。

人们非常喜欢它。仅仅一年时间,它的月活用户数就已经超过 10 亿。

当人们使用 Search 中由 AI 驱动的功能时,他们会更频繁地使用 Search。Search 不再只是围绕单个查询展开,而更像是一场持续进行的对话,帮助你获得更深入的洞见,并连接到广阔的网络世界。

另一个我们快速创新的地方是 Gemini app。去年 I/O 时,Gemini app 有 4 亿月活用户。今天,我们已经超过 9 亿,一年内增长了一倍以上。同期,每日请求量增长超过 7 倍。

我们加入了许多独特功能,例如 Personal Intelligence,让回答更加个性化,也更加有帮助。到目前为止,用户已经用我们的 Nano Banana 图像生成模型生成了超过 500 亿张图片。它是过去一年里表现突出的明星产品,也展现出世界上存在着多么丰富的潜在创造力。

## 产品中的自然对话式 AI

还有大量潜在生产力等待释放。过去一年,我们一直在把更自然地与 Gemini 对话的能力直接带入我们的产品。最近,Maps 迎来了十年来最大的一次升级,其中包括名为 Ask Maps 的新功能。人们正在用 Ask Maps 提出更复杂、也更长的问题。

现在,我们正在把更自然的对话式 AI 带到更多产品中。

## Ask YouTube

人们每天来到 YouTube 提出很多问题。YouTube 上有很多优秀视频,但有时很难知道应该从哪里开始。

Ask YouTube 彻底重新想象了这种体验,让信息更容易消化,也更容易浏览。你会看到最符合你兴趣的视频;最重要的是,它会直接跳到视频中与你最相关的部分。

我们现在已经开始测试 Ask YouTube,它将在今年夏天于美国广泛推出。

## 由语音驱动的 Docs Live

很多时候,我希望能用说话的速度完成事情。得益于音频模型的技术跃进,这在今天变得更可行了。

一个名为 Docs Live 的新功能把这件事提升到了新的层次。过去,如果你想用 Gemini 创建文档,需要输入一个精准的提示词。有了 Docs Live,你可以直接用语音把脑子里的想法“倾倒”出来,然后让 Gemini 完成剩下的工作。

未来,你将能够完全通过语音创建新文档并直接编辑它们。Docs Live 将在今年夏天向订阅用户推出,强大的语音能力也将在届时来到 Gmail 和 Keep。

## 支撑大规模创新的基础设施

看到这些创新以如此速度进入我们的产品,令人惊叹。要在服务用户的同时,也服务世界各地的企业和开发者,需要对基础设施进行巨大投入。我们一直在为现在和未来投资。2022 年,我们每年的资本支出为 310 亿美元。今年,我们预计这个数字将达到约 6 倍,也就是大约 1800 亿至 1900 亿美元。这项投资的关键部分是我们的定制芯片。

十年前,我们在 I/O 舞台上发布了第一款商用张量处理单元,也就是 TPU。自那以后,我们改变了整个行业构建 AI 的方式。最近,我们在 Cloud Next 上发布了第 8 代 TPU。第一次,我们采用了双芯片方式,为训练和推理分别设计专门架构:TPU 8t 和 TPU 8i。

TPU 8t 针对大规模预训练进行优化,其原始计算能力接近上一代的 3 倍。我们对训练基础设施采用了根本不同的方式。借助 JAX 和 Pathways,我们的训练不再受限于单个大型数据中心的限制。相反,我们现在可以把训练无缝分布到多个站点,在全球超过 100 万个 TPU 上扩展训练。这让我们能够创建世界上最大的训练集群。对于模型构建者来说,这意味着可以在数周内训练更大、更强的模型,而不再需要数月。

TPU 8i 则是为推理设计的。我们在每个环节都大幅提升了速度。因为如果说我们在 27 年 Search 工作中学到了什么,那就是延迟非常重要。

除了速度,我们也在思考如何以更可持续的方式扩展规模。这两款芯片都更加节能,单位能耗性能最高提升 2 倍。

## Gemini Omni

TPU 的这些进展,使我们能够在模型、编码和 agents 方面实现计算能力进步。随着 world models 的发展,AI 正在从预测文本转向模拟现实。我们一直在努力推动这些模型能力的边界。

Gemini Omni 是我们的新模型,能够从任意输入生成任意输出模态的样本。我们会先从视频输出开始,未来还会支持图像和文本。这个新模型把 Gemini 的智能与我们的生成式媒体模型结合在一起,是世界理解能力上的巨大跃进。我们正在发布 Omni 系列的第一个模型:Gemini Omni Flash。

Gemini Omni Flash 从今天开始可用。你可以在 Gemini app、Google Flow 和 YouTube Shorts 中试用它。未来几周,我们也会通过 API 将其提供给开发者和企业客户。

## SynthID 更新与新合作伙伴

随着生成式 AI 变得更强,对更高透明度的需求也在增加。研究显示,人们正确识别高质量 deepfake 视频的概率只有大约四分之一。三年前,我们推出了 SynthID,这是我们的水印技术,肉眼不可见。自推出以来,SynthID 现在已经为超过 1000 亿张图片和视频,以及 6 万年长度的音频资产添加了水印。

数百万人正在 Gemini app 中使用我们的 SynthID 检测器来验证 AI 生成内容。现在,我们还要进一步在各产品中加入 Content Credentials 验证。这会显示内容的来源是 AI 还是相机,以及它是否被生成式 AI 工具编辑过。我们希望更多人能够轻松使用这些工具,所以我们正在把 Content Credentials 和 SynthID 验证扩展到 Search 和 Chrome。

当然,只有更多合作伙伴决定为自己的 AI 生成内容添加水印,这件事才能在大规模上发挥作用。Nvidia 去年已经加入 SynthID。今天,我们很高兴地宣布,OpenAI、Kakao 和 Eleven Labs 也将采用 SynthID。看到跨行业合作令人非常高兴。我们期待与更多合作伙伴合作,并为 AI 时代树立透明度标准。

## Gemini 3.5 Flash

Gemini 3 几个月前发布,并带来了完整的模型家族。它是我们采用速度最快的系列。我们很高兴看到开发者把 Flash 作为日常主力模型使用,也看到他们用 Pro 的深度推理和多模态能力构建出令人惊叹的体验。我们一直在努力改进这些模型,尤其专注于代理式编码、长周期任务和真实世界工作流。

今天,我们推出 Gemini 3.5 Flash,这是我们一系列“将前沿智能与行动能力结合”的模型中的第一个。我想强调两点:

第一,与 3.1 Pro 相比,3.5 Flash 在几乎所有基准测试中都更出色。它在编码方面取得了巨大进步,GDPVal 上的跃升尤其显著。GDPVal 捕捉的是许多现实世界中具有经济价值的任务。

第二,Gemini 3.5 Flash 是一个非常强大的模型,处于前沿水平,可与最佳模型相比,但它仍然非常快。因此,当你看智能水平与输出速度的关系时,它位于右上角,独具优势。从每秒输出 token 数来看,它比其他前沿模型快 4 倍。

这个新模型已经在 Google 内部改变了我们的工作方式。我们一直在把 3.5 Flash 与重新构想后的 agent-first 开发平台 Antigravity 一起使用,它显著加快了我们的构建速度。今年 3 月,我们内部的 AI 开发者工具每天处理 5000 亿个 token,并且每隔几周就翻倍。现在,我们每天处理超过 3 万亿个 token。这样的规模创造了一个强大的反馈循环,帮助我们改进 3.5。

Flash 的惊人之处在于,它以不到可比前沿模型一半的价格,提供前沿级能力。我们听说许多公司已经在 5 月就用完了年度 token 预算。如果企业把 Flash 与其他前沿模型组合使用,就能节省大量成本。举例来说,顶级公司每天大约处理 1 万亿个 token。如果它们把 80% 的工作负载从其他前沿模型转移到 3.5 Flash,每年将节省超过 10 亿美元。这是真正的节省,可以重新投入到公司中。

Gemini 3.5 Flash 今天起面向所有人开放,覆盖我们的产品和 API。我们也很期待 Gemini 3.5 Pro。我们正在内部使用它,它表现出很大的改进,并将在下个月推出。

## Antigravity 2.0

我们也正在把 3.5 Flash 带给 Antigravity 中的开发者。

Antigravity 正在从编码环境扩展为一个开发和管理自主 AI agent 群组的平台。其中包括 Antigravity 2.0,这是一款新的独立桌面应用,是 agent 交互的中心空间,任何人都可以在其中编排 agents,完成各种任务。我们还开发了一个更加优化的 Flash 版本:它不仅比其他前沿模型快 4 倍,而是快 12 倍。

Antigravity 用户从今天开始可以体验这种能力。

## Gemini Spark 是你的 24/7 agent

Gemini 3.5 和 Antigravity 正在开启一个由 agents 和代理式能力构成的新世界。我们已经把 agents 带给开发者和企业一段时间了。现在,我们非常专注于把 agents 的能力以安全可靠的方式带给消费者,让它适用于每个人。今天,你会在我们许多产品中看到代理式体验。

我特别期待 Gemini Spark。它是 Gemini app 中你的个人 AI agent,帮助你管理数字生活,并在你的指示下代表你采取行动。

它运行在 Google Cloud 上的专用虚拟机中。它 24/7 运行,所以你不需要一直让笔记本电脑开着。

它由 Gemini 3.5 和 Google Antigravity harness 驱动,可以轻松执行长周期任务。

Spark 将与各种工具无缝集成,首先从我们自己的工具开始,接下来几周会通过 MCP 接入第三方工具。

你可以用最方便的方式与 Spark 协作:在 Gemini app 中,或很快通过电子邮件和聊天。

在 Android 上,你将能够通过一个名为 Android Halo 的新 UI 空间查看 Spark 等 agents 的实时更新和任务进展,该功能将在今年晚些时候推出。今年夏天晚些时候,Spark 将直接在 Chrome 中运行,成为你跨网页使用的代理式浏览器。

我们本周开始向受信任测试者推出 Gemini Spark,Beta 版将在下周面向美国 Google AI Ultra 订阅用户推出。

## 代理式时代的 Search

Gemini Spark 是由 3.5 模型和 Antigravity 共同实现的第一个体验。这个组合为我们加速使命、把产品变得更有帮助提供了新的方式。

进入这个代理式时代后,Search 将比以往任何时候都更有帮助,也更强大。今天,我们推出 Search 中的信息 agents。它们是你可以设置的个性化 AI agents,会在后台 24/7 工作,在恰当时刻找到你需要的信息,并帮助你采取行动。信息 agents 将于今年夏天推出,首先面向 Google AI Pro 和 Ultra 订阅用户。

我们构建真正代理式 Search 的另一个方式,是把代理式编码能力注入 Search。借助 Gemini 3.5 Flash 和 Google Antigravity 的能力,Search 将为你的个人问题构建定制体验,例如动态布局和交互式视觉内容。这些生成式 UI 能力将于今年夏天在 Search 中面向所有人免费开放。

对于那些持续时间较长、需要不断回来的任务,Search 还能更进一步:构建可长期访问的定制仪表盘或追踪器,让你可以反复回到其中并持续推进。你可以把它们理解为服务于你特定任务的小型应用。未来几个月,你将能够直接在 Search 中用 Antigravity 构建定制体验,首先面向美国 Google AI Pro 和 Ultra 订阅用户推出。

## 更多来自代理式 Gemini 时代的内容

以下是我们在 I/O 上分享的其他内容:

Daily Brief 是 Gemini app 中另一个开箱即用的 agent。它会为你提供个性化摘要,并整合来自收件箱、日历和任务的信息,找出最重要、最需要你注意的内容。它不只是总结数据:它会排序、组织并建议下一步行动,让你可以轻松采取行动。所有这些都会汇集成一份非常简洁、适合快速浏览的晨间摘要。

Google Flow 今天向所有人推出一个新的 agent,可以根据你的输入,在你的控制下规划并推理复杂任务。它由 Gemini 模型构建,能为早期头脑风暴、创作和编辑提供专业能力和对项目的深入理解。你还可以直接在 Flow 中 vibe code 任意创意工具,例如用于设计视频特效、手绘动画或叠加文字的工具。

Google Pics 是我们的新 AI 图像创建和编辑工具,基于最新的 Nano Banana 模型构建,帮助你按照想要的创作控制方式生成几乎任何内容。无论你是从空白画布开始设计,还是编辑已有照片,Pics 都会把每个元素视为独立对象,而不是一张扁平、静态的图片。这让你可以创建、替换或完善特定细节,从而把精确的设想变为现实。Google Pics 现在已向受信任测试者开放,并将在今年夏天晚些时候面向 Workspace 中的 Google AI Pro 和 Ultra 订阅用户推出。

我们还分享了更多关于智能眼镜的信息。去年,我们首次展示了这类产品,其中包括可以在耳边提供语音帮助的音频眼镜,以及能在你需要时显示信息的显示眼镜。两者都能让你保持双手空闲、视线向前,只需向 Gemini 提问即可获得帮助。音频眼镜将率先发布,并将在今年秋季晚些时候推出。

Gemini for Science 汇集了一系列 AI 工具,帮助加速科学研究。它建立在 Gemini 的深度推理和研究能力,以及 Deep Think 和 Deep Research 之上,包括 Labs 上的新实验,以及 Science Skills。Science Skills 可以把 Google Antigravity 等代理式平台连接到 30 多个主要生命科学数据库和工具。用户可以在 Google Labs 上表达对 Gemini for Science 实验的试用兴趣;Science Skills 今天已在 Github 上开放,并可直接在 Antigravity 中使用。

当我们纵览整套创新体系,从 TPU 8i 背后的基础设施,到 Gemini 3.5 和 Antigravity 的前沿能力,都可以清楚看到:我们已经扎实地进入了代理式 Gemini 时代。我很期待看到它如何打开新的方式,加速我们的使命,并把我们的产品转变得对所有地方的每个人都更有帮助。

发布于 山东