GPT-SoVITS语音克隆

自己剪的视频要配旁白，是真的烦。本人念吧，磕磕巴巴录半天。找配音吧，要么贵要么不是那个味。有个开源工具能解决这事：录一分钟自己说话的声音，它就能学着用你的音色，把任意一段文字读出来，给视频配音、配旁白都行。它叫 GPT-SoVITS。

说清楚它是干什么的。它是一个语音克隆加文字转语音（TTS）的工具，自带一个网页界面（WebUI），你在浏览器里点点鼠标就能用，不用是程序员。

最让人眼前一亮的是它对样本的胃口很小。给它一段大约5秒的人声，不用训练，它当场就能用那个音色把你打的字读出来，这叫零样本。要是想更像、更自然，就用大约1分钟的语音再微调一下，相似度会明显上一个台阶。一分钟，差不多就是你正常说几段话的量。

它还能跨语言。意思是，哪怕训练时用的全是中文录音，它也能让这个音色去读英语、日语、韩语、粤语——目前支持这五种。你想象一下，用自己的声音配一条日语旁白，这在以前基本是不敢想的。

更省事的一点，是它把准备素材到出成品这一整条流水线都收进了同一个工作台。网页界面里直接内置了人声伴奏分离、训练集自动切分、中文语音转文字（ASR）、还有文本打标。也就是说，从「我手里有一段带背景音的录音」到「训练出一个能用的声音模型」，你不用东拼西凑好几个软件，在一个界面里就走完了。这对新手太友好了。

还有个容易被忽略但很关键的点：它是本地跑的。开源，能装在自己电脑上，Windows、Linux、macOS 都行，你的声音素材不用上传给任何第三方云。这年头，声音也是隐私。

热度上，它在 GitHub 上有大约5.8万颗 star，而且一直在更新，2026年4月底还在迭代，那次主要是把推理速度做了优化。一个工具能这么久还有人持续维护，比那些发一版就没声的项目踏实多了。

当然，效果好不好，很大程度上取决于你喂进去的样本质量。录音底噪大、口齿不清，出来的就打折扣，这跟拿一张糊的照片让 AI 修、它也修不出高清是一个道理。还有个我得照实说的坑：在 macOS 上用 GPU 训练，质量明显比别的设备低（这条官方文档里也写了，我自己也不敢替它打包票）。所以真要认真训练，Windows 或者 Linux 的机器更稳。它不是「完美还原任何人」，是「在不错的样本下，给你一个相当像的声音」。

适合用在哪？给自己的视频、口播稿配音是最直接的，录一分钟就再也不用对着稿子一遍遍 NG；做有声书、播客旁白也合适；要是你手里有已经授权的角色声音，还能给它配出多语言版本。

它是开源的，在 GitHub 上叫 GPT-SoVITS，作者是 RVC-Boss。想给自己的视频配个音，就拿自己的声音先跑一段试试，剩下的边做边摸索就行。

#马力的AI知识分享##马力的AI开源项目分享#

发布于北京