马力AI和商业思维
26-06-16 21:20 微博认证:知群 CEO 微博新知博主

自己剪的视频要配旁白,是真的烦。本人念吧,磕磕巴巴录半天。找配音吧,要么贵要么不是那个味。有个开源工具能解决这事:录一分钟自己说话的声音,它就能学着用你的音色,把任意一段文字读出来,给视频配音、配旁白都行。它叫 GPT-SoVITS。

说清楚它是干什么的。它是一个语音克隆加文字转语音(TTS)的工具,自带一个网页界面(WebUI),你在浏览器里点点鼠标就能用,不用是程序员。

最让人眼前一亮的是它对样本的胃口很小。给它一段大约5秒的人声,不用训练,它当场就能用那个音色把你打的字读出来,这叫零样本。要是想更像、更自然,就用大约1分钟的语音再微调一下,相似度会明显上一个台阶。一分钟,差不多就是你正常说几段话的量。

它还能跨语言。意思是,哪怕训练时用的全是中文录音,它也能让这个音色去读英语、日语、韩语、粤语——目前支持这五种。你想象一下,用自己的声音配一条日语旁白,这在以前基本是不敢想的。

更省事的一点,是它把准备素材到出成品这一整条流水线都收进了同一个工作台。网页界面里直接内置了人声伴奏分离、训练集自动切分、中文语音转文字(ASR)、还有文本打标。也就是说,从「我手里有一段带背景音的录音」到「训练出一个能用的声音模型」,你不用东拼西凑好几个软件,在一个界面里就走完了。这对新手太友好了。

还有个容易被忽略但很关键的点:它是本地跑的。开源,能装在自己电脑上,Windows、Linux、macOS 都行,你的声音素材不用上传给任何第三方云。这年头,声音也是隐私。

热度上,它在 GitHub 上有大约5.8万颗 star,而且一直在更新,2026年4月底还在迭代,那次主要是把推理速度做了优化。一个工具能这么久还有人持续维护,比那些发一版就没声的项目踏实多了。

当然,效果好不好,很大程度上取决于你喂进去的样本质量。录音底噪大、口齿不清,出来的就打折扣,这跟拿一张糊的照片让 AI 修、它也修不出高清是一个道理。还有个我得照实说的坑:在 macOS 上用 GPU 训练,质量明显比别的设备低(这条官方文档里也写了,我自己也不敢替它打包票)。所以真要认真训练,Windows 或者 Linux 的机器更稳。它不是「完美还原任何人」,是「在不错的样本下,给你一个相当像的声音」。

适合用在哪?给自己的视频、口播稿配音是最直接的,录一分钟就再也不用对着稿子一遍遍 NG;做有声书、播客旁白也合适;要是你手里有已经授权的角色声音,还能给它配出多语言版本。

它是开源的,在 GitHub 上叫 GPT-SoVITS,作者是 RVC-Boss。想给自己的视频配个音,就拿自己的声音先跑一段试试,剩下的边做边摸索就行。

#马力的AI知识分享##马力的AI开源项目分享#

发布于 北京