MOSS-TTS-Nano语音合成工具发布

语音合成经常需要大模型和高配硬件，GPU部署复杂，延迟高，小设备上跑不动很麻烦。

MOSS-TTS-Nano 把实时语音生成变得超级简单，只需0.1B参数，就能纯CPU运行，支持多语言语音克隆。

不仅有流式推理低延迟、高保真48kHz立体声输出，还支持本地Web Demo、ONNX部署，甚至浏览器直跑。

GitHub：github.com/OpenMOSS/MOSS-TTS-Nano

主要功能：

- 超小模型0.1B参数，支持20种语言（中英日韩等多语种）；
- 纯CPU实时推理，无需GPU，4核CPU流式生成低延迟；
- 零样本语音克隆，支持参考音频快速模仿声音；
- 原生48kHz双声道音频，支持长文本自动分块合成；
- ONNX版本推理效率翻倍，单核MacBook Air M4顺滑运行；
- 本地Web Demo和CLI工具，python infer.py一键生成；
- 支持finetuning和浏览器扩展，部署栈极简。

支持 Web、桌面多平台，pip安装依赖即可本地运行，适合个人开发者、语音产品和实时应用。

#AI##语音合成##TTS##开源AI#

发布于北京