科技Finder 26-05-08 11:26
微博认证:数码博主

小米推出了 OmniVoice :开源的多语言语音克隆(TTS)模型,模型采用极简的双向Transformer架构,配合大语言模型优化,解决了传统TTS“读不准、发音怪、多语种拉胯”的问题,还支持噪声过滤、情绪控制、多音字纠错等实用功能。

简单来说,你只需要给它一段语音,它就能学习你的音色,并且用你的音色说出全球600+种语言的任何文本,用你的声音说全世界的话。

传统主流模型支持的语言种类太少,小米的这个OmniVoice连很多低资源小语种都覆盖到了。这种强大的跨语言克隆能力可以让小米全生态产品快速为不同国家/地区定制专属语音包,大大降低了针对单种语言单独开发的成本。小米全球生态的语言交互能力迎来了史诗级加强,非常利好各业务全球化展开~

图一 OmniVoice 模型架构
图二 中英文测试集上的TTS性能对比
图三 24个语种上 OmniVoice 与商用系统性能对比
图四 102个语种上 OmniVoice 与真实语音的测试指标对比
图五 102个语种上的 OmniVoice 生成语音与真实语音的字错误率(CER)及对应训练数据时长

发布于 重庆