#影视级的文生成语音模型#看了一下IndexTTS2的官网，直接用两部影视名著来当模板，这个表现，确实配得上这个自信。时长控制，做成了自回归模型的“标配”，现在以像调音台一样精准控制AI的语速和时长，告别了对口型地狱。第二个把情绪和音色做成了可插拔的独立模块。就是它把声音的和情绪彻底分开

#影视级的文生成语音模型#看了一下IndexTTS2的官网，直接用两部影视名著来当模板，这个表现，确实配得上这个自信。

时长控制，做成了自回归模型的“标配”，现在以像调音台一样精准控制AI的语速和时长，告别了对口型地狱。

第二个把情绪和音色做成了可插拔的独立模块。就是它把声音的和情绪彻底分开了，你可以让郭德纲用林黛玉的悲伤语气说话，也可以让AI用文字指令“来一段三分薄凉、三分讥笑、四分漫不经心”的情绪。更别提为了解决强烈情绪下的破音问题，它还引入了GPT的潜在表征来维稳。这是不是证明用任何人的声音，带着任何一种情绪，去说任何一句话的时候真的不远了，以后连情感共鸣都可以伪造了？ #好奇心观察局#

发布于广东