爱可可-爱生活 26-04-12 08:54
微博认证:AI博主 2025微博新锐新知博主

语音合成经常需要切换多个工具,克隆声音用一个TTS服务,生成音频又要下载模型,应用效果还得用DAW软件,来回折腾效率低下。

Voicebox 把语音合成全流程整合到一起,提供了一站式开源语音工作室解决方案。

不仅支持5款TTS引擎克隆声音、23种语言生成,还能实时应用音效、编辑多轨故事,甚至提供REST API集成到你的应用中。

GitHub:github.com/jamiepine/voicebox

主要功能:

- 多引擎语音克隆,支持Qwen3-TTS、LuxTTS、Chatterbox等5款引擎;
- 23种语言生成,从英语到阿拉伯语、日语、印地语、斯瓦希里语;
- 后处理音效,包括变调、混响、延迟、压缩等8种效果;
- 无限长度生成,智能分块+交叉淡入,支持50k字符脚本;
- 多轨故事编辑器,拖拽时间线制作对话、播客和叙事;
- 语音配置文件管理,可录音/导入克隆,导出分享;
- 本地运行隐私保护,支持macOS、Windows、Linux多平台;
- REST API接口,轻松集成到游戏、播客、语音助手项目。

下载DMG/MSI或Docker部署即可运行,通过just命令本地开发,适合内容创作者、开发者使用。

#AI语音合成##Voicebox#

发布于 北京