微软开源VibeVoice

在制作播客或长篇有声小说，传统免费的文本转语音工具往往只能合成几分钟语音，而且多人对话听起来很僵硬不自然，缺乏真实感。

最近微软开源了一个文本转语音模型：VibeVoice，可直接生成长达 90 分钟的自然多人对话音频。

不仅能处理超长文本，还支持最多 4 个不同说话人的自然对话，甚至能根据内容自动添加背景音乐和音效。

GitHub：github.com/microsoft/VibeVoice

主要特性：

- 可生成长达 90 分钟的连续语音内容，远超传统工具
- 支持最多 4 个说话人的自然多人对话
- 智能添加背景音乐和音效，增强沉浸感
- 跨语言合成，支持中英文混合语音生成
- 支持歌唱能力，能根据歌词自动生成旋律
- 提供 1.5B 和 7B 两个版本，满足不同性能需求，

可通过 Docker 快速部署，并提供了 Gradio 可视化操作界面，轻松上手使用。

#AI创造营# #微博兴趣创作计划# http://t.cn/AXv8Mfan

发布于广东