是煦煦哟 26-03-16 16:59
微博认证:科技博主 超话小主持人(科技超话)

刚看到这个消息的时候还挺感慨的。阿里通义实验室今天开源了一个叫 Fun-CineForge 的多模态大模型,专门干一件事——给影视剧做配音。

咱们平时刷剧看电影,里面的配音要跟角色口型对得上、情绪要到位、不同角色的音色还不能串,这些已经是基本操作了。但真正让技术人员头疼的是那些“看不见说话人”的复杂场景,比如镜头切换、角色背对镜头、或者画面里一群人但只有一个人在说话。

这哥们儿有意思的地方在于,它在模型里首次引入了 “时间模态”。说白了,就是让AI不仅看着画面、读着台词,还得懂“什么时间段该谁出声”。这样一来,哪怕画面里没有嘴可读,它也能根据时间线索把声音准确地“塞”到该出现的地方。

官方给的数据也挺扎实:中文字错率从4.53%降到了0.94%,英文词错率从9.35%降到了2.12%。目前支持30秒以内的视频片段推理,独白和旁白的效果最好,已经开始尝试处理双人和多人对话场景了。

代码和模型已经在GitHub、HuggingFace、ModelScope同步开源。如果你手头有配音相关的项目,或者单纯好奇想试试“时间对齐”到底是怎么个对齐法,项目主页(funcineforge.github.io)上有不少示例可以看。

说实话,这玩意儿离真正取代专业配音演员还有距离,但至少给后期制作多了一个“能帮忙扛活”的选项。对于小团队做动画、做游戏过场动画来说,可能会是个挺趁手的工具。

项目传送门:
🔗 GitHub:github.com/FunAudioLLM/FunCineForge
🔗 技术主页:funcineforge.github.io

你有遇到过那种“画面糊一脸,但配音必须准时准点”的制作需求吗?欢迎聊聊你的“渡劫”经历。

发布于 福建