谷歌今天凌晨发布了Gemini Omni Flash,该模型被定义为 Google 首个真正意义上的“原生 Omni 多模态生成模型”,能够基于文本、图片、音频及视频输入,直接生成完整的视频与音频内容。
Google 表示,Gemini Omni Flash 的核心目标是:“Create anything from any input.”
与此前“Gemini 负责理解、Veo 负责生成”的分离式架构不同,Gemini Omni Flash 首次实现了“理解 + 生成”统一化。模型不仅能够识别复杂场景,还能够持续保持角色、环境与物理逻辑的一致性,并支持通过自然语言对生成内容进行连续修改。
Google 在发布会上重点强调,Gemini Omni Flash 并非传统意义上的视频生成工具,而是一种“持续世界建模(Persistent World Modeling)”能力。
模型支持:视频重混(Video Remix)、原生视频编辑(Native Video Editing)、多轮连续修改、视频与音频同步生成、场景记忆与角色一致性保持。
例如,用户可以通过对话直接修改视频内容:“把天空改成暴雨”、“主角换成黑色风衣”、“增加夕阳光线”、“镜头向前推进”。模型会在原视频基础上继续编辑,而不是完全重新生成。
业内人士认为,Google 正在尝试建立“统一多模态世界模型”,方向更接近“实时世界模拟”,而非目前主流的文本理解+图像生成+视频拼接的分离式架构,人脸漂移、场景遗忘、光线重置、动作逻辑断裂等常见的问题也会得到巨大改善。
如果说过去的AI是“生成一段视频”,那么Google现在想做的是:“生成一个持续存在、可不断修改的世界。”
一切顺利的话,AI视频行业正式开始从“镜头生成时代”,进入“世界模型时代”,以后我们看到的视频,或许不再是现实世界的拍摄记录,而是某个人亲手构建出的世界切片。
