Voicebox整合语音合成流程

语音合成经常需要切换多个工具，克隆声音用一个TTS服务，生成音频又要下载模型，应用效果还得用DAW软件，来回折腾效率低下。

Voicebox 把语音合成全流程整合到一起，提供了一站式开源语音工作室解决方案。

不仅支持5款TTS引擎克隆声音、23种语言生成，还能实时应用音效、编辑多轨故事，甚至提供REST API集成到你的应用中。

GitHub：github.com/jamiepine/voicebox

主要功能：

- 多引擎语音克隆，支持Qwen3-TTS、LuxTTS、Chatterbox等5款引擎；
- 23种语言生成，从英语到阿拉伯语、日语、印地语、斯瓦希里语；
- 后处理音效，包括变调、混响、延迟、压缩等8种效果；
- 无限长度生成，智能分块+交叉淡入，支持50k字符脚本；
- 多轨故事编辑器，拖拽时间线制作对话、播客和叙事；
- 语音配置文件管理，可录音/导入克隆，导出分享；
- 本地运行隐私保护，支持macOS、Windows、Linux多平台；
- REST API接口，轻松集成到游戏、播客、语音助手项目。

下载DMG/MSI或Docker部署即可运行，通过just命令本地开发，适合内容创作者、开发者使用。

#AI语音合成##Voicebox#

发布于北京