音随心动!Qwen3-TTS 全系列模型正式开源 🎙️
我们正式开源发布Qwen3-TTS全系列模型,支持音色克隆、音色创造、超高质量拟人化语音生成,以及基于自然语言描述的语音控制。
🌟 核心亮点:
👉🏻极致低延迟流式生成: 创新 Dual-Track 双轨建模,首包音频仅需等待一个字符,端到端延迟低至 97ms。
👉🏻多语言覆盖: 全面支持中、英、日、韩、德、法、俄、葡、西、意 10 种主流语言及多种方言。
轻量高效: 采用非 DiT 架构实现高保真还原,提供 1.7B(极致性能) 与 0.6B(兼顾效率) 两种尺寸。
👉🏻性能巅峰: 在音色克隆、创造与控制等多项指标上达到了SOTA性能。
🚀 立即体验:
魔搭社区、Hugging Face、GitHub
同时支持通过 Qwen API 调用。
#通义##Qwen#
发布于 浙江
