谷歌发布Gemini Omni Flash

谷歌今天凌晨发布了Gemini Omni Flash，该模型被定义为 Google 首个真正意义上的“原生 Omni 多模态生成模型”，能够基于文本、图片、音频及视频输入，直接生成完整的视频与音频内容。

Google 表示，Gemini Omni Flash 的核心目标是：“Create anything from any input.”

与此前“Gemini 负责理解、Veo 负责生成”的分离式架构不同，Gemini Omni Flash 首次实现了“理解 + 生成”统一化。模型不仅能够识别复杂场景，还能够持续保持角色、环境与物理逻辑的一致性，并支持通过自然语言对生成内容进行连续修改。

Google 在发布会上重点强调，Gemini Omni Flash 并非传统意义上的视频生成工具，而是一种“持续世界建模（Persistent World Modeling）”能力。

模型支持：视频重混（Video Remix）、原生视频编辑（Native Video Editing）、多轮连续修改、视频与音频同步生成、场景记忆与角色一致性保持。

例如，用户可以通过对话直接修改视频内容：“把天空改成暴雨”、“主角换成黑色风衣”、“增加夕阳光线”、“镜头向前推进”。模型会在原视频基础上继续编辑，而不是完全重新生成。

业内人士认为，Google 正在尝试建立“统一多模态世界模型”，方向更接近“实时世界模拟”，而非目前主流的文本理解+图像生成+视频拼接的分离式架构，人脸漂移、场景遗忘、光线重置、动作逻辑断裂等常见的问题也会得到巨大改善。

如果说过去的AI是“生成一段视频”，那么Google现在想做的是：“生成一个持续存在、可不断修改的世界。”

一切顺利的话，AI视频行业正式开始从“镜头生成时代”，进入“世界模型时代”，以后我们看到的视频，或许不再是现实世界的拍摄记录，而是某个人亲手构建出的世界切片。

发布于江苏