大头博士先生
26-06-20 12:56 微博认证:AI博主 《最强大脑》第十季选手

刷到Grok Imagine Video 1.5 正式上线,研究了一下,发现真的很有意思~

最重磅的是原生音频+唇同步,不仅能生成清晰对话,还带环境音效和背景声,6秒720p用Fast模式最快25秒左右就出,速度直接起飞[老师好]。

核心升级可以总结成三方面:
第一,运动与物理真实感大幅跃升。

这次模型对重量感、动量守恒和物理交互的理解明显更深,人物走路时脚步有落地重量,衣服褶皱非常自然,场景里的物体移动也更符合现实逻辑。

第二,原生音频+唇同步是最大杀手锏!

模型同时理解视觉、对话内容和环境声,一次生成就能输出带清晰人声、唇形精准同步、背景环境音的完整短片。6秒720p用Fast模式最快25秒左右出结果。

如果你拍一张静态照片或写一段场景描述,就能快速得到带声画同步、可直接投短视频平台的素材。

第三,创作链路被大幅压缩。
从idea到产出内容的时间窗口缩短到分钟级别。能快速验证故事板,能几分钟做出带讲解的演示视频,甚至在能低成本批量生成带旁白的解释性内容。续接功能也更稳,方便把短片扩展成更长的叙事。

大家发现没有,现在AI生视频正在走向越来越精进的阶段了,实用性和易用性都在同步提升。这些正在慢慢嵌入日常创作的生产力工具,我感觉每半个月,甚至每周,都能接收到AI的新变化 ,真的是太卷了,卷到飞起了[跪了][老师好]

#当AI开始自己造AI##ChatGPT[超话]##AI大模型#

发布于 北京