小米下一代Kaldi团队（k2-fsa）重磅开源 OmniVoice 🎤 大规模多语言零样本TTS模型，Apache 2.0可商用🌍 646种语言覆盖｜3秒语音克隆｜40倍实时速度🔹 语音克隆：仅需3-10秒参考音频，高保真复刻音色、语气和情感，中文WER低至0.84%🔹 Voice Design：无需参考音频，文字描述即可生成自定义声

小米下一代Kaldi团队（k2-fsa）重磅开源 OmniVoice 🎤 大规模多语言零样本TTS模型，Apache 2.0可商用
🌍 646种语言覆盖｜3秒语音克隆｜40倍实时速度
🔹 语音克隆：仅需3-10秒参考音频，高保真复刻音色、语气和情感，中文WER低至0.84%
🔹 Voice Design：无需参考音频，文字描述即可生成自定义声音，支持性别/年龄/音调/口音/情感等细粒度控制
🔹 非言语控制：支持[laughter][sigh][sniff]等非言语符号，合成语音更自然生动
🔹 拼音纠音：支持拼音/音素纠正发音，多音字场景友好
🔹 极致推理：RTF低至0.025，40倍实时速度，长音频轻松生成
🔹 轻量部署：模型2-3GB，整体环境约6GB，低显存友好
📚 适用：有声书、视频配音、虚拟主播、多语言翻译、多角色对话、声音克隆
🔗 GitHub：github.com/k2-fsa/OmniVoice
🔗 Hugging Face：huggingface.co/k2-fsa/OmniVoice
#人工智能#人工智能[超话]##comfyui#

发布于江苏