阿里通义开源Fun-CineForge模型

刚看到这个消息的时候还挺感慨的。阿里通义实验室今天开源了一个叫 Fun-CineForge 的多模态大模型，专门干一件事——给影视剧做配音。

咱们平时刷剧看电影，里面的配音要跟角色口型对得上、情绪要到位、不同角色的音色还不能串，这些已经是基本操作了。但真正让技术人员头疼的是那些“看不见说话人”的复杂场景，比如镜头切换、角色背对镜头、或者画面里一群人但只有一个人在说话。

这哥们儿有意思的地方在于，它在模型里首次引入了 “时间模态”。说白了，就是让AI不仅看着画面、读着台词，还得懂“什么时间段该谁出声”。这样一来，哪怕画面里没有嘴可读，它也能根据时间线索把声音准确地“塞”到该出现的地方。

官方给的数据也挺扎实：中文字错率从4.53%降到了0.94%，英文词错率从9.35%降到了2.12%。目前支持30秒以内的视频片段推理，独白和旁白的效果最好，已经开始尝试处理双人和多人对话场景了。

代码和模型已经在GitHub、HuggingFace、ModelScope同步开源。如果你手头有配音相关的项目，或者单纯好奇想试试“时间对齐”到底是怎么个对齐法，项目主页（funcineforge.github.io）上有不少示例可以看。

说实话，这玩意儿离真正取代专业配音演员还有距离，但至少给后期制作多了一个“能帮忙扛活”的选项。对于小团队做动画、做游戏过场动画来说，可能会是个挺趁手的工具。

项目传送门：
🔗 GitHub：github.com/FunAudioLLM/FunCineForge
🔗 技术主页：funcineforge.github.io

你有遇到过那种“画面糊一脸，但配音必须准时准点”的制作需求吗？欢迎聊聊你的“渡劫”经历。

发布于福建