一觉睡醒来,发现Qwen3 TTS开源了。
这个就是补齐了阿里开源模型生态的缺口,连声音都有了。
总共有两个参数大小,一个1.7B,一个0.6B。
这样的参数大小,大多数消费级显卡都能用,甚至没有显卡都能用。
其中模型还有几个类型
VoiceDesign:根据用户提供的描述进行音色设计。
CustomVoice:通过用户指令对目标音色进行风格控制;支持 9 种优质音色,涵盖性别、年龄、语言和方言的多种组合。
Base:基础模型,支持从用户提供的 3 秒音频快速克隆音色;可用于微调(FT)其他模型。
以前也有很多语音模型,但是生态都不是很好。
因为阿里知名度大,生态好,那么支持的人就会更多。
所以,这次是解决开源社区的大问题了。
下面是项目官方介绍:
支持10 种主要语言(中文、英文、日文、韩文、德文、法文、俄文、葡萄牙文、西班牙文和意大利文)以及多种方言音色,以满足全球化的应用需求。此外,该模型具备强大的上下文理解能力,可根据指令和文本语义自适应地控制语调、语速和情感表达,并在面对含噪声的输入文本时展现出显著增强的鲁棒性。主要特性包括:
强大的语音表征能力:基于自研的 Qwen3-TTS-Tokenizer-12Hz,实现了高效的声学压缩与高维语义建模。完整保留了副语言信息和声学环境特征,通过轻量级非 DiT 架构即可实现高速、高保真的语音重建。
通用端到端架构:采用离散多码本语言模型(LM)架构,实现全信息端到端语音建模。彻底规避了传统 LM+DiT 方案固有的信息瓶颈和级联误差问题,显著提升了模型的通用性、生成效率和性能上限。
极致低延迟流式生成:基于创新的 Dual-Track 混合流式生成架构,单个模型同时支持流式与非流式生成。在输入单个字符后即可立即输出首个音频包,端到端合成延迟低至 97ms,满足实时交互场景的严苛要求。
智能文本理解与语音控制:支持由自然语言指令驱动的语音生成,可灵活控制音色、情感、韵律等多维度声学属性。通过深度融合文本语义理解,模型能自适应调整语调、节奏和情感表达,实现“所想即所听”的拟真输出。
模型地址:www.modelscope.cn/models/Qwen/Qwen3-TTS-12Hz-1.7B-Base
