马力AI和商业思维
26-06-16 21:33 微博认证:知群 CEO 微博新知博主

还有一个声音相关的 AI 工具要分享给大家。

AI 配的旁白一开口,那股机器味就来了,字正腔圆、四平八稳,可你一耳朵就知道不是人。

有个开源模型偏偏不走这条路。它叫 ChatTTS,专门做 TTS(文字转语音),但它不追求播音腔,它追求的是「像真人聊天那样说话」——会停顿,会笑,话里带语气。给视频配旁白、做口播、做播客,要的就是这个味。

先说清一件容易混的事。现在很多语音工具是干「克隆音色」的,给它一段你的录音,它学着用你的嗓子说话。ChatTTS 不是这个路子。它不复刻某个指定的人,它是直接生成一段自然的对话语音,口语化、有起伏,听着像在跟你唠。两件事,别搞混。

最有意思的是它能控制那些「人才有」的小动作。

你在文字里插一个标记,比如 [laugh] 表示笑、[uv_break] 表示停顿,它就在那个位置真的笑一下、顿一下。你细想,机器朗读和真人说话,差的不就是这点东西么——一句话该停哪、哪里轻飘飘带过、说到好笑处先忍不住笑了半声再往下讲。播音员念稿是把字念准,朋友跟你聊天是带着这些小毛刺的。ChatTTS 想抓的就是这些小毛刺。

韵律这块它确实下了功夫。所谓韵律,就是语调的起伏、轻重、节奏。它的说明里写,在韵律上超过了大多数开源的同类模型。注意是「大多数开源同类」,不是全面第一、不是天下无敌,这个分寸得拎清,免得期待落空。

它还支持中英文混着说,也支持多个说话人,能做那种你一句我一句的双人对谈。音色是随机采出来的,你让它随机生成一个嗓音,听到满意的,把它固定下来反复用就行(不是克隆你认识的某个真人,是凭空给你一个新声音)。

用起来不算麻烦。开源,能在自己电脑上跑,有个网页界面,框里输入文字就能出声音,也有命令行。30秒的音频大概4GB 显存起步,普通带独显的机器够得着。

说点它的短板,免得你上来期待太高。它自己的说明里就坦白了,稳定性还不够——多说话人的时候、或者音质上,偶尔会翻车。这其实是这一类自回归模型的通病,不是它一家的毛病。情绪控制目前也就那么几个标记,笑、停顿这种,更细的喜怒哀乐还在以后的版本里。我没拿它大规模跑过,只是看了它的说明和示例,这话你听着权当参考。

有个细节我挺欣赏。作者明显是担心这东西被拿去作恶,伪造声音这事,想想就后怕。所以他在开源那一版模型里故意掺了点高频噪声、把音质也压低了,提高被滥用的门槛;还内部训了一个「检测是不是它生成的」的模型,说以后会开源出来。技术做到这份上还肯给自己上一道锁,不多见。

它是开源的,在 GitHub 上叫 ChatTTS,团队叫2noise。开源的那版是用4万小时音频训出来的(更全的主模型用了10万小时以上),到现在攒了接近4万颗 star。

#马力的AI知识分享##马力的AI开源项目分享#

发布于 北京