小米OmniVoice TTS发布

小米 AI 实验室 Kaldi 团队推出的 OmniVoice 多语言 TTS 模型今日正式发布并开源：

OmniVoice 是业内首个覆盖 600 余种语言的语音克隆 TTS，采用极简架构，仅用单个双向 Transformer 网络即可直接完成文本转语音，是目前结构最简的非自回归 TTS 模型；训练与推理效率方面，单日可完成 10 万小时训练，PyTorch 推理达到 40 倍实时，合成质量优于主流同类模型。模型依托全码本随机掩蔽策略提升训练效率，并引入大语言模型预训练参数，大幅优化语音可懂度，解决发音不准问题。

多语言适配方面，OmniVoice 泛化能力极强，24 语种测试中相似度与可懂度超越多款商用系统，102 语种可懂度逼近真实语音，即便训练数据不足 10 小时的低资源小语种，也能实现高质量合成，此外还支持自定义音色、带噪参考音频适配、丰富语气表达，还可精准纠正多音字与专有名词发音。

目前 OmniVoice 模型已全面开源，官方同步提供了相关论文、GitHub 完整代码、语音样本展示及 Huggingface 一键试用 Demo，开发者可快速接入使用。

发布于湖北