VibeVoice:突破传统文本转语音限制,实现长达90分钟、多说话人高保真对话合成
• 采用超低帧率(7.5Hz)连续语音tokenizers(声学+语义),大幅提升长序列处理效率,同时保持音质细节。
• 基于next-token扩散框架,融合大语言模型(LLM)理解上下文与对话流,扩散头生成清晰自然的声学表现。
• 支持多达4个不同说话人,突破传统TTS多说话人数量及时长限制(常见模型仅支持1-2人,时长远短于90分钟)。
• 适合生成多角色播客、长篇对话,极大增强对话语音合成的连贯性与表现力。
• 开源MIT许可,社区活跃,方便研究者和开发者探索长文本语音合成边界。
• 支持英中双语文本输入,非英中语言可能导致音频异常,当前不支持背景音或重叠语音合成。
• 使用建议:推荐搭配NVIDIA深度学习容器部署,示例代码与Gradio演示均已提供,便于快速体验与二次开发。
• 风险提醒:高质量语音合成存在深度伪造风险,须合规使用,避免误导和违法行为,务必标明AI生成内容。
长对话多说话人语音合成迈出关键一步,推动多场景语音交互研究和应用探索。
详细介绍👉 github.com/paperwave/VibeVoice
#文本转语音# #多说话人TTS# #语音合成# #长文本处理# #开源AI# #人工智能#
发布于 北京
