小米技术
26-05-29 17:00 微博认证:小米技术官方微博

小米正式开源可控视频音效生成模型 ControlFoley[鼓掌]

ControlFoley是一个统一且可控的视频音效生成框架,面向视频同步音效生成中的“可控性”难题,统一支持文本引导视频配音、文本控制视频配音和参考音频控制视频配音三类任务。在多个视频音效生成任务上达到开源SOTA表现,在语义对齐、时间同步、声音质量以及多模态控制能力上取得全面提升。 http://t.cn/AX61a9eS

发布于 北京