小米开源多语言语音克隆

小米推出了 OmniVoice ：开源的多语言语音克隆（TTS）模型，模型采用极简的双向Transformer架构，配合大语言模型优化，解决了传统TTS“读不准、发音怪、多语种拉胯”的问题，还支持噪声过滤、情绪控制、多音字纠错等实用功能。

简单来说，你只需要给它一段语音，它就能学习你的音色，并且用你的音色说出全球600+种语言的任何文本，用你的声音说全世界的话。

传统主流模型支持的语言种类太少，小米的这个OmniVoice连很多低资源小语种都覆盖到了。这种强大的跨语言克隆能力可以让小米全生态产品快速为不同国家/地区定制专属语音包，大大降低了针对单种语言单独开发的成本。小米全球生态的语言交互能力迎来了史诗级加强，非常利好各业务全球化展开～

图一 OmniVoice 模型架构
图二中英文测试集上的TTS性能对比
图三 24个语种上 OmniVoice 与商用系统性能对比
图四 102个语种上 OmniVoice 与真实语音的测试指标对比
图五 102个语种上的 OmniVoice 生成语音与真实语音的字错误率（CER）及对应训练数据时长

发布于重庆