Qwen3 TTS开源发布

一觉睡醒来，发现Qwen3 TTS开源了。
这个就是补齐了阿里开源模型生态的缺口，连声音都有了。

总共有两个参数大小，一个1.7B，一个0.6B。
这样的参数大小，大多数消费级显卡都能用，甚至没有显卡都能用。

其中模型还有几个类型
VoiceDesign：根据用户提供的描述进行音色设计。
CustomVoice：通过用户指令对目标音色进行风格控制；支持 9 种优质音色，涵盖性别、年龄、语言和方言的多种组合。
Base：基础模型，支持从用户提供的 3 秒音频快速克隆音色；可用于微调（FT）其他模型。

以前也有很多语音模型，但是生态都不是很好。
因为阿里知名度大，生态好，那么支持的人就会更多。
所以，这次是解决开源社区的大问题了。

下面是项目官方介绍：
支持10 种主要语言（中文、英文、日文、韩文、德文、法文、俄文、葡萄牙文、西班牙文和意大利文）以及多种方言音色，以满足全球化的应用需求。此外，该模型具备强大的上下文理解能力，可根据指令和文本语义自适应地控制语调、语速和情感表达，并在面对含噪声的输入文本时展现出显著增强的鲁棒性。主要特性包括：

强大的语音表征能力：基于自研的 Qwen3-TTS-Tokenizer-12Hz，实现了高效的声学压缩与高维语义建模。完整保留了副语言信息和声学环境特征，通过轻量级非 DiT 架构即可实现高速、高保真的语音重建。
通用端到端架构：采用离散多码本语言模型（LM）架构，实现全信息端到端语音建模。彻底规避了传统 LM+DiT 方案固有的信息瓶颈和级联误差问题，显著提升了模型的通用性、生成效率和性能上限。
极致低延迟流式生成：基于创新的 Dual-Track 混合流式生成架构，单个模型同时支持流式与非流式生成。在输入单个字符后即可立即输出首个音频包，端到端合成延迟低至 97ms，满足实时交互场景的严苛要求。
智能文本理解与语音控制：支持由自然语言指令驱动的语音生成，可灵活控制音色、情感、韵律等多维度声学属性。通过深度融合文本语义理解，模型能自适应调整语调、节奏和情感表达，实现“所想即所听”的拟真输出。

模型地址：www.modelscope.cn/models/Qwen/Qwen3-TTS-12Hz-1.7B-Base

发布于江苏