开源斩获2.4kstar !NeuTTS Air:仅需3秒音频即可克隆声音,支持离线使用!
今天小编就给大家介绍一款开源且支持实时声音克隆的TTS模型:NeuTTS Air!
作为基于0.5B参数大语言模型架构的本地文本转语音系统,NeuTTS Air最大的亮点在于其强大的即时语音克隆能力。仅需3-15秒清晰的参考音频,该系统就能准确克隆声音特征,生成高度逼真的语音输出。
功能特点
超写实语音质量:在同规模模型中表现出色,能生成自然、超逼真的类人语音
设备端部署优化:提供GGML格式,可在手机、笔记本电脑甚至树莓派等设备上运行。
即时语音克隆:仅需3-15秒清晰、自然连续的单声道参考音频,就能克隆声音。
轻量高效架构:基于0.5B大语言模型骨干,结合NeuCodec音频编解码器,平衡速度、大小与质量,支持实时生成。
安全性保障:所有处理在本地完成,生成的音频包含水印,符合合规要求。
支持英语:适配英语语音合成,上下文窗口达2048tokens,可处理约30秒音频。
低延迟优化:通过使用GGUF模型骨干、预编码参考音频、采用onnx编解码器等方式,可实现低延迟运行。
开源地址:http://t.cn/AXzZl25R
#AI模型##ai创造营##AI开源项目推荐##ai技术##开源TTS##语音合成#
发布于 重庆
