谷歌I/O 2026大会演讲

#谷歌IO2026#
Sundar Pichai劈柴哥在Google I/O 大会上的演讲文字版：

# I/O 2026：欢迎来到代理式 Gemini 时代

自上一次 I/O 以来，这一年非同寻常：我们持续发布产品，技术不断进步，整体发展速度非常快。现在，我们进入了 AI 周期中的一个阶段：人们希望在每天使用的产品里看到 AI 带来的真实价值。

我们一直非常专注于这一点。你会在今天 I/O 发布的产品和功能中看到这种努力。

距离我们把公司转向“AI-first”已经过去十年。我们仍然认为，AI 是推进 Google 使命、以规模化方式改善人们生活的最深远方式。

因此，我们一直采用差异化的全栈 AI 创新方式：从定制芯片与安全基础，到世界级研究与模型，再到触达数十亿人的产品与平台。

这种方式让我们能够更快迭代和创新，并让公司各个领域都被 AI 点亮。

令人惊叹的是，人们正在以各种方式使用 AI：学生用 Gemini app 备考期末，音乐人与艺术家把 Lyria、Veo 等生成式 AI 模型融入创作流程，开发者用 AI 编码并把想法变成现实。

## AI 在全栈范围内的势头

这些人们使用 AI 的故事，是衡量进展的最好方式。要理解人们采用 AI 的规模，还有一个很好的参考指标——tokens，也就是模型处理数据的基本单位，其中很多 token 都代表着一个正在被解决的问题。

两年前，我们在各个产品界面中每月处理 9.7 万亿个 token——这已经是一个巨大的数字。去年 I/O 时，这一数字增长到约 480 万亿。到今天，这个数字又增长了 7 倍，超过每月 3.2 千万亿。

这讲述了一个关于我们产品，以及其他人如何构建产品的重要故事，尤其是开发者和企业：

- 现在，每月有超过 850 万开发者在使用我们的模型构建新的应用和体验。
- 我们的模型 API 现在每分钟处理约 190 亿个 token。
- 过去 12 个月里，有超过 375 家 Google Cloud 客户分别处理了超过 1 万亿个 token，这代表了各行各业对 AI 的巨大需求。

## 产品势头

今天，我们有 13 款产品的用户数超过 10 亿。其中 5 款产品的用户数超过 30 亿。

Gemini 模型是更多人使用我们产品，以及人们更频繁使用这些产品的重要原因。

一切都从 Search 开始。Search 正在把生成式 AI 的好处带给比世界上任何其他产品都更多的人。AI Overviews 现在拥有超过 25 亿月活用户。AI Mode 则是一次突破，是 Search 史上最大的一次升级。

人们非常喜欢它。仅仅一年时间，它的月活用户数就已经超过 10 亿。

当人们使用 Search 中由 AI 驱动的功能时，他们会更频繁地使用 Search。Search 不再只是围绕单个查询展开，而更像是一场持续进行的对话，帮助你获得更深入的洞见，并连接到广阔的网络世界。

另一个我们快速创新的地方是 Gemini app。去年 I/O 时，Gemini app 有 4 亿月活用户。今天，我们已经超过 9 亿，一年内增长了一倍以上。同期，每日请求量增长超过 7 倍。

我们加入了许多独特功能，例如 Personal Intelligence，让回答更加个性化，也更加有帮助。到目前为止，用户已经用我们的 Nano Banana 图像生成模型生成了超过 500 亿张图片。它是过去一年里表现突出的明星产品，也展现出世界上存在着多么丰富的潜在创造力。

## 产品中的自然对话式 AI

还有大量潜在生产力等待释放。过去一年，我们一直在把更自然地与 Gemini 对话的能力直接带入我们的产品。最近，Maps 迎来了十年来最大的一次升级，其中包括名为 Ask Maps 的新功能。人们正在用 Ask Maps 提出更复杂、也更长的问题。

现在，我们正在把更自然的对话式 AI 带到更多产品中。

## Ask YouTube

人们每天来到 YouTube 提出很多问题。YouTube 上有很多优秀视频，但有时很难知道应该从哪里开始。

Ask YouTube 彻底重新想象了这种体验，让信息更容易消化，也更容易浏览。你会看到最符合你兴趣的视频；最重要的是，它会直接跳到视频中与你最相关的部分。

我们现在已经开始测试 Ask YouTube，它将在今年夏天于美国广泛推出。

## 由语音驱动的 Docs Live

很多时候，我希望能用说话的速度完成事情。得益于音频模型的技术跃进，这在今天变得更可行了。

一个名为 Docs Live 的新功能把这件事提升到了新的层次。过去，如果你想用 Gemini 创建文档，需要输入一个精准的提示词。有了 Docs Live，你可以直接用语音把脑子里的想法“倾倒”出来，然后让 Gemini 完成剩下的工作。

未来，你将能够完全通过语音创建新文档并直接编辑它们。Docs Live 将在今年夏天向订阅用户推出，强大的语音能力也将在届时来到 Gmail 和 Keep。

## 支撑大规模创新的基础设施

看到这些创新以如此速度进入我们的产品，令人惊叹。要在服务用户的同时，也服务世界各地的企业和开发者，需要对基础设施进行巨大投入。我们一直在为现在和未来投资。2022 年，我们每年的资本支出为 310 亿美元。今年，我们预计这个数字将达到约 6 倍，也就是大约 1800 亿至 1900 亿美元。这项投资的关键部分是我们的定制芯片。

十年前，我们在 I/O 舞台上发布了第一款商用张量处理单元，也就是 TPU。自那以后，我们改变了整个行业构建 AI 的方式。最近，我们在 Cloud Next 上发布了第 8 代 TPU。第一次，我们采用了双芯片方式，为训练和推理分别设计专门架构：TPU 8t 和 TPU 8i。

TPU 8t 针对大规模预训练进行优化，其原始计算能力接近上一代的 3 倍。我们对训练基础设施采用了根本不同的方式。借助 JAX 和 Pathways，我们的训练不再受限于单个大型数据中心的限制。相反，我们现在可以把训练无缝分布到多个站点，在全球超过 100 万个 TPU 上扩展训练。这让我们能够创建世界上最大的训练集群。对于模型构建者来说，这意味着可以在数周内训练更大、更强的模型，而不再需要数月。

TPU 8i 则是为推理设计的。我们在每个环节都大幅提升了速度。因为如果说我们在 27 年 Search 工作中学到了什么，那就是延迟非常重要。

除了速度，我们也在思考如何以更可持续的方式扩展规模。这两款芯片都更加节能，单位能耗性能最高提升 2 倍。

## Gemini Omni

TPU 的这些进展，使我们能够在模型、编码和 agents 方面实现计算能力进步。随着 world models 的发展，AI 正在从预测文本转向模拟现实。我们一直在努力推动这些模型能力的边界。

Gemini Omni 是我们的新模型，能够从任意输入生成任意输出模态的样本。我们会先从视频输出开始，未来还会支持图像和文本。这个新模型把 Gemini 的智能与我们的生成式媒体模型结合在一起，是世界理解能力上的巨大跃进。我们正在发布 Omni 系列的第一个模型：Gemini Omni Flash。

Gemini Omni Flash 从今天开始可用。你可以在 Gemini app、Google Flow 和 YouTube Shorts 中试用它。未来几周，我们也会通过 API 将其提供给开发者和企业客户。

## SynthID 更新与新合作伙伴

随着生成式 AI 变得更强，对更高透明度的需求也在增加。研究显示，人们正确识别高质量 deepfake 视频的概率只有大约四分之一。三年前，我们推出了 SynthID，这是我们的水印技术，肉眼不可见。自推出以来，SynthID 现在已经为超过 1000 亿张图片和视频，以及 6 万年长度的音频资产添加了水印。

数百万人正在 Gemini app 中使用我们的 SynthID 检测器来验证 AI 生成内容。现在，我们还要进一步在各产品中加入 Content Credentials 验证。这会显示内容的来源是 AI 还是相机，以及它是否被生成式 AI 工具编辑过。我们希望更多人能够轻松使用这些工具，所以我们正在把 Content Credentials 和 SynthID 验证扩展到 Search 和 Chrome。

当然，只有更多合作伙伴决定为自己的 AI 生成内容添加水印，这件事才能在大规模上发挥作用。Nvidia 去年已经加入 SynthID。今天，我们很高兴地宣布，OpenAI、Kakao 和 Eleven Labs 也将采用 SynthID。看到跨行业合作令人非常高兴。我们期待与更多合作伙伴合作，并为 AI 时代树立透明度标准。

## Gemini 3.5 Flash

Gemini 3 几个月前发布，并带来了完整的模型家族。它是我们采用速度最快的系列。我们很高兴看到开发者把 Flash 作为日常主力模型使用，也看到他们用 Pro 的深度推理和多模态能力构建出令人惊叹的体验。我们一直在努力改进这些模型，尤其专注于代理式编码、长周期任务和真实世界工作流。

今天，我们推出 Gemini 3.5 Flash，这是我们一系列“将前沿智能与行动能力结合”的模型中的第一个。我想强调两点：

第一，与 3.1 Pro 相比，3.5 Flash 在几乎所有基准测试中都更出色。它在编码方面取得了巨大进步，GDPVal 上的跃升尤其显著。GDPVal 捕捉的是许多现实世界中具有经济价值的任务。

第二，Gemini 3.5 Flash 是一个非常强大的模型，处于前沿水平，可与最佳模型相比，但它仍然非常快。因此，当你看智能水平与输出速度的关系时，它位于右上角，独具优势。从每秒输出 token 数来看，它比其他前沿模型快 4 倍。

这个新模型已经在 Google 内部改变了我们的工作方式。我们一直在把 3.5 Flash 与重新构想后的 agent-first 开发平台 Antigravity 一起使用，它显著加快了我们的构建速度。今年 3 月，我们内部的 AI 开发者工具每天处理 5000 亿个 token，并且每隔几周就翻倍。现在，我们每天处理超过 3 万亿个 token。这样的规模创造了一个强大的反馈循环，帮助我们改进 3.5。

Flash 的惊人之处在于，它以不到可比前沿模型一半的价格，提供前沿级能力。我们听说许多公司已经在 5 月就用完了年度 token 预算。如果企业把 Flash 与其他前沿模型组合使用，就能节省大量成本。举例来说，顶级公司每天大约处理 1 万亿个 token。如果它们把 80% 的工作负载从其他前沿模型转移到 3.5 Flash，每年将节省超过 10 亿美元。这是真正的节省，可以重新投入到公司中。

Gemini 3.5 Flash 今天起面向所有人开放，覆盖我们的产品和 API。我们也很期待 Gemini 3.5 Pro。我们正在内部使用它，它表现出很大的改进，并将在下个月推出。

## Antigravity 2.0

我们也正在把 3.5 Flash 带给 Antigravity 中的开发者。

Antigravity 正在从编码环境扩展为一个开发和管理自主 AI agent 群组的平台。其中包括 Antigravity 2.0，这是一款新的独立桌面应用，是 agent 交互的中心空间，任何人都可以在其中编排 agents，完成各种任务。我们还开发了一个更加优化的 Flash 版本：它不仅比其他前沿模型快 4 倍，而是快 12 倍。

Antigravity 用户从今天开始可以体验这种能力。

## Gemini Spark 是你的 24/7 agent

Gemini 3.5 和 Antigravity 正在开启一个由 agents 和代理式能力构成的新世界。我们已经把 agents 带给开发者和企业一段时间了。现在，我们非常专注于把 agents 的能力以安全可靠的方式带给消费者，让它适用于每个人。今天，你会在我们许多产品中看到代理式体验。

我特别期待 Gemini Spark。它是 Gemini app 中你的个人 AI agent，帮助你管理数字生活，并在你的指示下代表你采取行动。

它运行在 Google Cloud 上的专用虚拟机中。它 24/7 运行，所以你不需要一直让笔记本电脑开着。

它由 Gemini 3.5 和 Google Antigravity harness 驱动，可以轻松执行长周期任务。

Spark 将与各种工具无缝集成，首先从我们自己的工具开始，接下来几周会通过 MCP 接入第三方工具。

你可以用最方便的方式与 Spark 协作：在 Gemini app 中，或很快通过电子邮件和聊天。

在 Android 上，你将能够通过一个名为 Android Halo 的新 UI 空间查看 Spark 等 agents 的实时更新和任务进展，该功能将在今年晚些时候推出。今年夏天晚些时候，Spark 将直接在 Chrome 中运行，成为你跨网页使用的代理式浏览器。

我们本周开始向受信任测试者推出 Gemini Spark，Beta 版将在下周面向美国 Google AI Ultra 订阅用户推出。

## 代理式时代的 Search

Gemini Spark 是由 3.5 模型和 Antigravity 共同实现的第一个体验。这个组合为我们加速使命、把产品变得更有帮助提供了新的方式。

进入这个代理式时代后，Search 将比以往任何时候都更有帮助，也更强大。今天，我们推出 Search 中的信息 agents。它们是你可以设置的个性化 AI agents，会在后台 24/7 工作，在恰当时刻找到你需要的信息，并帮助你采取行动。信息 agents 将于今年夏天推出，首先面向 Google AI Pro 和 Ultra 订阅用户。

我们构建真正代理式 Search 的另一个方式，是把代理式编码能力注入 Search。借助 Gemini 3.5 Flash 和 Google Antigravity 的能力，Search 将为你的个人问题构建定制体验，例如动态布局和交互式视觉内容。这些生成式 UI 能力将于今年夏天在 Search 中面向所有人免费开放。

对于那些持续时间较长、需要不断回来的任务，Search 还能更进一步：构建可长期访问的定制仪表盘或追踪器，让你可以反复回到其中并持续推进。你可以把它们理解为服务于你特定任务的小型应用。未来几个月，你将能够直接在 Search 中用 Antigravity 构建定制体验，首先面向美国 Google AI Pro 和 Ultra 订阅用户推出。

## 更多来自代理式 Gemini 时代的内容

以下是我们在 I/O 上分享的其他内容：

Daily Brief 是 Gemini app 中另一个开箱即用的 agent。它会为你提供个性化摘要，并整合来自收件箱、日历和任务的信息，找出最重要、最需要你注意的内容。它不只是总结数据：它会排序、组织并建议下一步行动，让你可以轻松采取行动。所有这些都会汇集成一份非常简洁、适合快速浏览的晨间摘要。

Google Flow 今天向所有人推出一个新的 agent，可以根据你的输入，在你的控制下规划并推理复杂任务。它由 Gemini 模型构建，能为早期头脑风暴、创作和编辑提供专业能力和对项目的深入理解。你还可以直接在 Flow 中 vibe code 任意创意工具，例如用于设计视频特效、手绘动画或叠加文字的工具。

Google Pics 是我们的新 AI 图像创建和编辑工具，基于最新的 Nano Banana 模型构建，帮助你按照想要的创作控制方式生成几乎任何内容。无论你是从空白画布开始设计，还是编辑已有照片，Pics 都会把每个元素视为独立对象，而不是一张扁平、静态的图片。这让你可以创建、替换或完善特定细节，从而把精确的设想变为现实。Google Pics 现在已向受信任测试者开放，并将在今年夏天晚些时候面向 Workspace 中的 Google AI Pro 和 Ultra 订阅用户推出。

我们还分享了更多关于智能眼镜的信息。去年，我们首次展示了这类产品，其中包括可以在耳边提供语音帮助的音频眼镜，以及能在你需要时显示信息的显示眼镜。两者都能让你保持双手空闲、视线向前，只需向 Gemini 提问即可获得帮助。音频眼镜将率先发布，并将在今年秋季晚些时候推出。

Gemini for Science 汇集了一系列 AI 工具，帮助加速科学研究。它建立在 Gemini 的深度推理和研究能力，以及 Deep Think 和 Deep Research 之上，包括 Labs 上的新实验，以及 Science Skills。Science Skills 可以把 Google Antigravity 等代理式平台连接到 30 多个主要生命科学数据库和工具。用户可以在 Google Labs 上表达对 Gemini for Science 实验的试用兴趣；Science Skills 今天已在 Github 上开放，并可直接在 Antigravity 中使用。

当我们纵览整套创新体系，从 TPU 8i 背后的基础设施，到 Gemini 3.5 和 Antigravity 的前沿能力，都可以清楚看到：我们已经扎实地进入了代理式 Gemini 时代。我很期待看到它如何打开新的方式，加速我们的使命，并把我们的产品转变得对所有地方的每个人都更有帮助。

发布于山东