通义实验室语音团队正式发布两款支持 FreeStyle 指令生成的模型 Fun-CosyVoice3.5 与 Fun-AudioGen-VD。无论是精细控制声音表达,还是从零设计音色与场景,都可以通过自然语言指令直接生成。两款模型均支持通过自然语言指令控制语音生成,但应用方向不同:
Fun-CosyVoice3.5:多语种复刻 + 精细化表达控制
Fun-AudioGen-VD:声音设计 + 场景化音频生成
CosyVoice3.5 在 Instruct-TTS 方向实现能力升级,支持 FreeStyle 指令控制生成效果,一句话自由生成语音。你可以直接用自然语言描述表达方式,例如:“语气坚定一点”、“稍微压低音调,语速慢一点”、“带一点情绪起伏”......模型即可理解并生成相应表达。
如果说 Fun-CosyVoice3.5 解决的是“如何更好地表达”,那么 Fun-AudioGen-VD 解决的是——声音如何被设计。
Fun-AudioGen-VD 支持根据自然语言描述,生成目标音色、情绪表达和完整听觉场景,实现“人物 + 场景”的一体化声音生成。Fun-AudioGen-VD 不仅能生成声音,还能生成声音所处的“世界”,打造沉浸式听觉场景。(混响,场所模拟,听感,交互等)
不知道会不会开源,目前只有 API 调用[并不简单]
发布于 上海
