小米开源语音克隆TTS

小米最新开源的能覆盖600+语种的语音克隆TTS：OmniVoice，在中英文和多语言benchmark上关键指标达到SOTA

在Seed-TTS中文测试集上的WER为0.84%；在多语言benchmark上，SIM-o和WER超过ElevenLabs v2和MiniMax

RTF低至0.025，合成效率比实时快40倍

其核心在于采用了扩散语言模型风格的离散非自回归架构，直接从文本生成语音，一步到位，跳过中间的语义token阶段

并且全码本随机掩码策略用于高效训练+预训练LLM初始化，确保语音清晰度和可懂度

支持3-10秒参考音频克隆，可以通过描述属性，性别、年龄、音调、口音等生成声音

支持非语言符号，比如[laughter]笑声，以及拼音/音标纠正发音

600+种语言覆盖，对于小语种保护比较有用，濒危语言可以用少量样本生成高质量语音，帮助语言数字化保存

github：http://t.cn/AXMwkpYv

#OmniVoice##TTS##小米最新TTS##小米语音克隆模型# http://t.cn/AXMyCswR

发布于北京