VibeVoice 打破传统TTS局限，实现多说话者超长对话合成，适合播客等长内容创作。• 支持持续90分钟语音合成，最多4个说话者，超越多数模型1-2人限制 • 创新7.5Hz超低帧率连续语音tokenizer，极大提升长序列处理效率与音质保真度 • 结合LLM理解文本上下文与对话流，利用扩散模型细化高保真音频

VibeVoice 打破传统TTS局限，实现多说话者超长对话合成，适合播客等长内容创作。

• 支持持续90分钟语音合成，最多4个说话者，超越多数模型1-2人限制
• 创新7.5Hz超低帧率连续语音tokenizer，极大提升长序列处理效率与音质保真度
• 结合LLM理解文本上下文与对话流，利用扩散模型细化高保真音频细节
• 跨语言合成，具备一定跨语种迁移能力，虽稳定性尚待提升
• 开源权重与Colab演示脚本即用，支持快速试验与二次开发
• 具备意外“背景音乐彩蛋”，训练数据未经去噪，体现更真实场景感
• 注意中文合成偶有发音不稳，推荐英文标点分隔及使用大型模型以提升稳定度
• 不包含重叠语音生成，非商业用途，强调AI伦理与风险防范

VibeVoice展示了如何通过精细设计tokenizer与上下文感知机制，突破长对话TTS瓶颈，启发未来多说话者语音技术发展新方向。

了解详情🔗 github.com/vibevoice-community/VibeVoice

#语音合成# #TextToSpeech# #多说话者# #长对话# #开源AI# #自然语言处理#

发布于北京