爱可可-爱生活
25-09-07 14:25 微博认证:AI博主 2025微博新锐新知博主

TTS Audio Suite:ComfyUI 多引擎高质量语音合成与实时声线转换扩展,突破传统文本长度限制,支持多语言、多角色切换与丰富音频处理功能。

• 支持 ChatterBox TTS(含23种语言官方多语模型)、F5-TTS、Higgs Audio 2、VibeVoice、RVC 等顶级引擎,涵盖语音克隆、参考音频合成、长文本自动分块与情感调节。
• 实时声线转换(RVC),迭代细化提升匹配度,智能缓存加速实验,支持.pth角色模型快速切换。
• 多角色与语言标签切换,简化复杂项目中的多声线管理,支持阿拉伯语、德语、汉语、日语等多达23种语言无缝切换。
• 智能音频处理集成:FFmpeg高保真音频拉伸,AI降噪、声源分离,静默语音分析(含视频口型跟踪与SRT字幕生成)。
• 长文本智能分块(句子边界、逗号优先,支持多种音频拼接方式),保证自然流畅的语音合成体验。
• 支持批量并行处理与高效依赖管理,兼容 Python 3.13,轻松集成到ComfyUI工作流内。
• 包含录音捕获节点,自动静音检测,便捷录制自定义声线用于克隆和转换。
• 丰富示例工作流(统一TTS SRT、多引擎语音转换、F5-TTS编辑器)即拖即用,助力内容创作与开发效率提升。

远超传统TTS的灵活性与扩展能力,适合多语种内容创作者、AI音频研发者及声音工程师深入掌控声音合成全流程。

详情🔗 github.com/diodiogod/TTS-Audio-Suite
#语音合成# #多语言TTS# #声线转换# #AI音频# #ComfyUI# #深度学习#

发布于 北京