Gemini Omni 原生多模态大模型来了,先登场的是 Flash。
来看关键点:
1、支持 4 大输入模态,文本,图像,音频和视频任意组合。
2、口喷改视频,在多轮对话中能够保持角色和物理瑰丽的一致性,你可以改环境,改主体,改特效,或者完全重构现有视频中的场景和动作。
3、具备真实的世界知识,理解重力和流体动体学等物理法则,同时结合在科学,历史和文化领域的广泛知识。使它不仅能够创建逼真的场景,还能将复杂的概念可视化,比如用黏土动画讲解蛋白质折叠。
4、Avatars 个人数字分身,你可以用自己的形象和声音生成视频。
5、所有生成视频强制嵌入 SynthID 隐形水印,且均可通过 Google 生态验证。
目前已经在 Gemini App,Google Flow,以及 YouTube Shorts 和 YouTube Create App 开放。
传送门:blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-omni/
#谷歌IO2026##HOW I AI#
发布于 北京
