通义实验室发布两款语音模型

通义实验室语音团队正式发布两款支持 FreeStyle 指令生成的模型 Fun-CosyVoice3.5 与 Fun-AudioGen-VD。无论是精细控制声音表达，还是从零设计音色与场景，都可以通过自然语言指令直接生成。两款模型均支持通过自然语言指令控制语音生成，但应用方向不同：

Fun-CosyVoice3.5：多语种复刻 + 精细化表达控制
Fun-AudioGen-VD：声音设计 + 场景化音频生成

CosyVoice3.5 在 Instruct-TTS 方向实现能力升级，支持 FreeStyle 指令控制生成效果，一句话自由生成语音。你可以直接用自然语言描述表达方式，例如：“语气坚定一点”、“稍微压低音调，语速慢一点”、“带一点情绪起伏”......模型即可理解并生成相应表达。

如果说 Fun-CosyVoice3.5 解决的是“如何更好地表达”，那么 Fun-AudioGen-VD 解决的是——声音如何被设计。
Fun-AudioGen-VD 支持根据自然语言描述，生成目标音色、情绪表达和完整听觉场景，实现“人物 + 场景”的一体化声音生成。Fun-AudioGen-VD 不仅能生成声音，还能生成声音所处的“世界”，打造沉浸式听觉场景。（混响，场所模拟，听感，交互等）

不知道会不会开源，目前只有 API 调用[并不简单]

发布于上海