科技体验CLUB 26-05-07 20:55
微博认证:数码博主

小米 AI 实验室 Kaldi 团队推出的 OmniVoice 多语言 TTS 模型今日正式发布并开源:

OmniVoice 是业内首个覆盖 600 余种语言的语音克隆 TTS,采用极简架构,仅用单个双向 Transformer 网络即可直接完成文本转语音,是目前结构最简的非自回归 TTS 模型;训练与推理效率方面,单日可完成 10 万小时训练,PyTorch 推理达到 40 倍实时,合成质量优于主流同类模型。模型依托全码本随机掩蔽策略提升训练效率,并引入大语言模型预训练参数,大幅优化语音可懂度,解决发音不准问题。

多语言适配方面,OmniVoice 泛化能力极强,24 语种测试中相似度与可懂度超越多款商用系统,102 语种可懂度逼近真实语音,即便训练数据不足 10 小时的低资源小语种,也能实现高质量合成,此外还支持自定义音色、带噪参考音频适配、丰富语气表达,还可精准纠正多音字与专有名词发音。

目前 OmniVoice 模型已全面开源,官方同步提供了相关论文、GitHub 完整代码、语音样本展示及 Huggingface 一键试用 Demo,开发者可快速接入使用。

发布于 湖北