AIGCLINK 25-12-24 07:35
微博认证:AI博主

阿里新搞了两个TTS,音色创造Qwen3-TTS-VD-Flash和音色克隆Qwen3-TTS-VC-Flash

这两个模型一句话总结,3秒克隆音色或用自然语言捏新音色,让AI用任意角色、任意语言、任意情绪自然说话

文本鲁棒性强,多样化非规范化的文本也能处理

1、VD-Flash音色创造模型
解决了只能根据已有音色进行克隆或只能选择固定的预设音色

它可以用自然语言就能捏出任意音色、年龄、性别、情绪、人设,支持复杂的指令,

在InstructTTS-Eval上综合表现优于GPT-4o-mini-tts、Mimo-audio-7b-instruct,在角色扮演测试上超Gemini-2.5-pro-preview-tts

2、VC-Flash音色克隆模型
3s克隆

可以基于克隆的音色生成中文、英文、德语、意大利语、葡萄牙语、西班牙语、日语、韩语、法语、俄语10种语言

在MiniMax TTS Multilingual Test Set上,WER优于MiniMax、ElevenLabs、GPT-4o-Audio-Preview

VD API:http://t.cn/AX4Ap5Gc
VC API:http://t.cn/AX4Ap5GV
博客:http://t.cn/AX4Ap5Gf

#TTS##Qwen3-TTS-VD-Flash##Qwen3-TTS-VC-Flash# http://t.cn/AX4ApoSd

发布于 山西