小米最新开源的能覆盖600+语种的语音克隆TTS:OmniVoice,在中英文和多语言benchmark上关键指标达到SOTA
在Seed-TTS中文测试集上的WER为0.84%;在多语言benchmark上,SIM-o和WER超过ElevenLabs v2和MiniMax
RTF低至0.025,合成效率比实时快40倍
其核心在于采用了扩散语言模型风格的离散非自回归架构,直接从文本生成语音,一步到位,跳过中间的语义token阶段
并且全码本随机掩码策略用于高效训练+预训练LLM初始化,确保语音清晰度和可懂度
支持3-10秒参考音频克隆,可以通过描述属性,性别、年龄、音调、口音等生成声音
支持非语言符号,比如[laughter]笑声,以及拼音/音标纠正发音
600+种语言覆盖,对于小语种保护比较有用,濒危语言可以用少量样本生成高质量语音,帮助语言数字化保存
github:http://t.cn/AXMwkpYv
#OmniVoice##TTS##小米最新TTS##小米语音克隆模型# http://t.cn/AXMyCswR
发布于 北京
