VibeVoice实现长对话语音合成

VibeVoice：突破传统文本转语音限制，实现长达90分钟、多说话人高保真对话合成

• 采用超低帧率（7.5Hz）连续语音tokenizers（声学+语义），大幅提升长序列处理效率，同时保持音质细节。
• 基于next-token扩散框架，融合大语言模型（LLM）理解上下文与对话流，扩散头生成清晰自然的声学表现。
• 支持多达4个不同说话人，突破传统TTS多说话人数量及时长限制（常见模型仅支持1-2人，时长远短于90分钟）。
• 适合生成多角色播客、长篇对话，极大增强对话语音合成的连贯性与表现力。
• 开源MIT许可，社区活跃，方便研究者和开发者探索长文本语音合成边界。
• 支持英中双语文本输入，非英中语言可能导致音频异常，当前不支持背景音或重叠语音合成。
• 使用建议：推荐搭配NVIDIA深度学习容器部署，示例代码与Gradio演示均已提供，便于快速体验与二次开发。
• 风险提醒：高质量语音合成存在深度伪造风险，须合规使用，避免误导和违法行为，务必标明AI生成内容。

长对话多说话人语音合成迈出关键一步，推动多场景语音交互研究和应用探索。

详细介绍👉 github.com/paperwave/VibeVoice
#文本转语音# #多说话人TTS# #语音合成# #长文本处理# #开源AI# #人工智能#

发布于北京