七兆赫 26-04-12 21:52

小米下一代Kaldi团队(k2-fsa)重磅开源 OmniVoice 🎤 大规模多语言零样本TTS模型,Apache 2.0可商用
🌍 646种语言覆盖|3秒语音克隆|40倍实时速度
🔹 语音克隆:仅需3-10秒参考音频,高保真复刻音色、语气和情感,中文WER低至0.84%
🔹 Voice Design:无需参考音频,文字描述即可生成自定义声音,支持性别/年龄/音调/口音/情感等细粒度控制
🔹 非言语控制:支持[laughter][sigh][sniff]等非言语符号,合成语音更自然生动
🔹 拼音纠音:支持拼音/音素纠正发音,多音字场景友好
🔹 极致推理:RTF低至0.025,40倍实时速度,长音频轻松生成
🔹 轻量部署:模型2-3GB,整体环境约6GB,低显存友好
📚 适用:有声书、视频配音、虚拟主播、多语言翻译、多角色对话、声音克隆
🔗 GitHub:github.com/k2-fsa/OmniVoice
🔗 Hugging Face:huggingface.co/k2-fsa/OmniVoice
#人工智能#人工智能[超话]##comfyui#

发布于 江苏