梁小欣同学
25-07-14 13:59 微博认证:数码博主 微博原创视频博主

#影视级的文生成语音模型#看了一下IndexTTS2的官网,直接用两部影视名著来当模板,这个表现,确实配得上这个自信。

时长控制,做成了自回归模型的“标配”,现在以像调音台一样精准控制AI的语速和时长,告别了对口型地狱。

第二个把情绪和音色做成了可插拔的独立模块。 就是它把声音的和情绪彻底分开了,你可以让郭德纲用林黛玉的悲伤语气说话,也可以让AI用文字指令“来一段三分薄凉、三分讥笑、四分漫不经心”的情绪。更别提为了解决强烈情绪下的破音问题,它还引入了GPT的潜在表征来维稳。这是不是证明用任何人的声音,带着任何一种情绪,去说任何一句话的时候真的不远了,以后连情感共鸣都可以伪造了? #好奇心观察局#

发布于 广东