Gemini Omni多模态模型发布

Gemini Omni 原生多模态大模型来了，先登场的是 Flash。

来看关键点：

1、支持 4 大输入模态，文本，图像，音频和视频任意组合。

2、口喷改视频，在多轮对话中能够保持角色和物理瑰丽的一致性，你可以改环境，改主体，改特效，或者完全重构现有视频中的场景和动作。

3、具备真实的世界知识，理解重力和流体动体学等物理法则，同时结合在科学，历史和文化领域的广泛知识。使它不仅能够创建逼真的场景，还能将复杂的概念可视化，比如用黏土动画讲解蛋白质折叠。

4、Avatars 个人数字分身，你可以用自己的形象和声音生成视频。

5、所有生成视频强制嵌入 SynthID 隐形水印，且均可通过 Google 生态验证。

目前已经在 Gemini App，Google Flow，以及 YouTube Shorts 和 YouTube Create App 开放。

传送门：blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-omni/

#谷歌IO2026##HOW I AI#

发布于北京