karminski-牙医 26-01-23 07:00
微博认证:AI博主

97ms 出声! 3 秒克隆你的音色!

阿里通义千问刚刚开源了 Qwen3-TTS 一系列端到端的语音合成大模型. (去年九月份我给大家录过Qwen3-TTS-Flash 的测试). 这个模型由于足够小, 所以可以做到端到端延迟只有 97ms, 输入一个字就能开始出声!

传统 TTS 方案要么是 LM+DiT 级联架构有信息瓶颈, 要么延迟高不适合实时对话. Qwen3-TTS 用离散多码本 LM 架构直接端到端建模, 配合创新的双轨混合流式生成, 单一模型同时支持流式和非流式输出.

声音克隆也很猛, 只需要 3 秒的参考音频就能复刻音色. 还支持自然语言指令控制, 比如"用温柔鼓励的声音说", 模型就能自适应调整语调、情感和韵律, 实现"所想即所听".

模型有 1.7B 和 0.6B 两个规格, 覆盖中英日韩德法俄葡西意 10 种语言. CustomVoice 版本带 9 种精选音色, VoiceDesign 版本可以根据描述生成新音色, Base 版本支持声音克隆和微调.

自研的 12Hz Tokenizer 也是亮点, 16 个码本配 2048 码本大小, PESQ 和 STOI 指标都刷到了新高, 在多语言 WER 测试上全面碾压 GPT-4o.

应用场景: AI 语音助手、有声读物、视频配音、游戏 NPC 对话等等, 凡是需要低延迟高质量语音合成的场景都能用.

模型地址: huggingface.co/Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice

#HOW I AI#

发布于 日本