#一次性揭秘Gemini多模态技术##Gemini负责人揭秘多模态幕后#一次性揭秘Gemini多模态技术！就在刚刚，Gemini模型行为产品负责人Ani Baddepudi在谷歌自家的开发者频道开启了爆料模式。他和OpenAI前员工、现谷歌AI Studio产品负责人（Logan Kilpatrick，右）探讨了诸多众人好奇已久的问题：- 为啥

#一次性揭秘Gemini多模态技术##Gemini负责人揭秘多模态幕后#

一次性揭秘Gemini多模态技术！

就在刚刚，Gemini模型行为产品负责人Ani Baddepudi在谷歌自家的开发者频道开启了爆料模式。

他和OpenAI前员工、现谷歌AI Studio产品负责人（Logan Kilpatrick，右）探讨了诸多众人好奇已久的问题：

- 为啥Gemini一开始就被设计为原生多模态？

- 将图像和视频转化为token时，是否会存在压缩损失或信息丢失？

- Gemini 2.5为何在视频理解方面表现出色？

- 多模态框架下，一个能力的提升是否会带动其他能力的整体提升？

- ……

一言以蔽之，整个谈话几乎都围绕着Gemini多模态展开，包括其背后设计理念、当前应用以及未来发展方向。

之所以这场谈话值得关注，实在是因为Gemini多模态过于响当当和重要了。

2023年12月，谷歌原生多模态Gemini 1.0模型正式上线，一举将AI竞赛由ChatGPT主导的文本领域带入多模态领域。

而最新的Gemini 2.5 Pro（0605），不仅在代码、推理等任务上更上一层楼，而且还拿下视觉能力第一，可以说夯实了谷歌在多模态领域的领先地位。

此时回看Gemini当时的一些设计理念，会发现其前瞻性与创新性不仅为后续的发展奠定了坚实基础，而且对未来仍具有指导意义。

敲黑板，整场谈话干货满满，咱们这就开始：http://t.cn/A6DRAplp