昨天看@karminski-牙医 推荐了这个GPT-SoVITS V3 TTS 407M项目,说是笔记本都能跑哈哈哈,我一下又再次心动了(其实这类项目早就想自己跑起来玩玩的,奈何一个是早期的部署没有现在那么傻瓜式,一个是对硬件的要求以前也比较高),我转发完就去下载了项目的整合包,然后开始读项目文档
同时收到了@阿尼亚是安妮亞 贴心的慰问,原来虽说可以用笔记本的CPU跑,但是速度也非常感人,小木让我把音频录好发给她用4070来跑,还告诉我一个惊人的事实:只需要准备10秒至1分钟的音频就可以,甚至可以不训练直接推理😂这让我回想起九几年我刚有电脑的时候,有一个语音转文字的软件,让我对着电脑读了一晚上的文本(印象里有几百句)来学习我的声音,识别正确率也依然挺低的,而现在居然几句话就可以跨语种生成语音了,这跟魔法有什么区别
小木几分钟后就生成了一段我指定内容的wav,此时我还没概念GPU和CPU在这方面能差多少,直到6个小时后——我才用我的破笔记本完成了录音、音频处理、切割、标注、训练、推理,最后一步每生成15个字大概需要200秒,而且应该是没法一次生成太长的内容不然会爆显存,今天还是拜托小木帮我生成一段长的试试吧[馋嘴]
最后总结一下,确实部署简单使用方便[彩虹屁],笔记本可跑但不推荐🥲,实现效果令人惊叹[送花花]
发布于 陕西
