阿里推出音色创造与克隆TTS模型

阿里新搞了两个TTS，音色创造Qwen3-TTS-VD-Flash和音色克隆Qwen3-TTS-VC-Flash

这两个模型一句话总结，3秒克隆音色或用自然语言捏新音色，让AI用任意角色、任意语言、任意情绪自然说话

文本鲁棒性强，多样化非规范化的文本也能处理

1、VD-Flash音色创造模型
解决了只能根据已有音色进行克隆或只能选择固定的预设音色

它可以用自然语言就能捏出任意音色、年龄、性别、情绪、人设，支持复杂的指令，

在InstructTTS-Eval上综合表现优于GPT-4o-mini-tts、Mimo-audio-7b-instruct，在角色扮演测试上超Gemini-2.5-pro-preview-tts

2、VC-Flash音色克隆模型
3s克隆

可以基于克隆的音色生成中文、英文、德语、意大利语、葡萄牙语、西班牙语、日语、韩语、法语、俄语10种语言

在MiniMax TTS Multilingual Test Set上，WER优于MiniMax、ElevenLabs、GPT-4o-Audio-Preview

VD API：http://t.cn/AX4Ap5Gc
VC API：http://t.cn/AX4Ap5GV
博客：http://t.cn/AX4Ap5Gf

#TTS##Qwen3-TTS-VD-Flash##Qwen3-TTS-VC-Flash# http://t.cn/AX4ApoSd

发布于山西