阿里新搞了两个TTS,音色创造Qwen3-TTS-VD-Flash和音色克隆Qwen3-TTS-VC-Flash
这两个模型一句话总结,3秒克隆音色或用自然语言捏新音色,让AI用任意角色、任意语言、任意情绪自然说话
文本鲁棒性强,多样化非规范化的文本也能处理
1、VD-Flash音色创造模型
解决了只能根据已有音色进行克隆或只能选择固定的预设音色
它可以用自然语言就能捏出任意音色、年龄、性别、情绪、人设,支持复杂的指令,
在InstructTTS-Eval上综合表现优于GPT-4o-mini-tts、Mimo-audio-7b-instruct,在角色扮演测试上超Gemini-2.5-pro-preview-tts
2、VC-Flash音色克隆模型
3s克隆
可以基于克隆的音色生成中文、英文、德语、意大利语、葡萄牙语、西班牙语、日语、韩语、法语、俄语10种语言
在MiniMax TTS Multilingual Test Set上,WER优于MiniMax、ElevenLabs、GPT-4o-Audio-Preview
VD API:http://t.cn/AX4Ap5Gc
VC API:http://t.cn/AX4Ap5GV
博客:http://t.cn/AX4Ap5Gf
#TTS##Qwen3-TTS-VD-Flash##Qwen3-TTS-VC-Flash# http://t.cn/AX4ApoSd
发布于 山西
