语音合成经常需要大模型和高配硬件,GPU部署复杂,延迟高,小设备上跑不动很麻烦。
MOSS-TTS-Nano 把实时语音生成变得超级简单,只需0.1B参数,就能纯CPU运行,支持多语言语音克隆。
不仅有流式推理低延迟、高保真48kHz立体声输出,还支持本地Web Demo、ONNX部署,甚至浏览器直跑。
GitHub:github.com/OpenMOSS/MOSS-TTS-Nano
主要功能:
- 超小模型0.1B参数,支持20种语言(中英日韩等多语种);
- 纯CPU实时推理,无需GPU,4核CPU流式生成低延迟;
- 零样本语音克隆,支持参考音频快速模仿声音;
- 原生48kHz双声道音频,支持长文本自动分块合成;
- ONNX版本推理效率翻倍,单核MacBook Air M4顺滑运行;
- 本地Web Demo和CLI工具,python infer.py一键生成;
- 支持finetuning和浏览器扩展,部署栈极简。
支持 Web、桌面多平台,pip安装依赖即可本地运行,适合个人开发者、语音产品和实时应用。
#AI##语音合成##TTS##开源AI#
发布于 北京
