GitHubDaily 25-08-28 08:00
微博认证:AI博主

在制作播客或长篇有声小说,传统免费的文本转语音工具往往只能合成几分钟语音,而且多人对话听起来很僵硬不自然,缺乏真实感。

最近微软开源了一个文本转语音模型:VibeVoice,可直接生成长达 90 分钟的自然多人对话音频。

不仅能处理超长文本,还支持最多 4 个不同说话人的自然对话,甚至能根据内容自动添加背景音乐和音效。

GitHub:github.com/microsoft/VibeVoice

主要特性:

- 可生成长达 90 分钟的连续语音内容,远超传统工具
- 支持最多 4 个说话人的自然多人对话
- 智能添加背景音乐和音效,增强沉浸感
- 跨语言合成,支持中英文混合语音生成
- 支持歌唱能力,能根据歌词自动生成旋律
- 提供 1.5B 和 7B 两个版本,满足不同性能需求,

可通过 Docker 快速部署,并提供了 Gradio 可视化操作界面,轻松上手使用。

#AI创造营# #微博兴趣创作计划# http://t.cn/AXv8Mfan

发布于 广东