ChatTTS让语音像真人

还有一个声音相关的 AI 工具要分享给大家。

AI 配的旁白一开口，那股机器味就来了，字正腔圆、四平八稳，可你一耳朵就知道不是人。

有个开源模型偏偏不走这条路。它叫 ChatTTS，专门做 TTS（文字转语音），但它不追求播音腔，它追求的是「像真人聊天那样说话」——会停顿，会笑，话里带语气。给视频配旁白、做口播、做播客，要的就是这个味。

先说清一件容易混的事。现在很多语音工具是干「克隆音色」的，给它一段你的录音，它学着用你的嗓子说话。ChatTTS 不是这个路子。它不复刻某个指定的人，它是直接生成一段自然的对话语音，口语化、有起伏，听着像在跟你唠。两件事，别搞混。

最有意思的是它能控制那些「人才有」的小动作。

你在文字里插一个标记，比如 [laugh] 表示笑、[uv_break] 表示停顿，它就在那个位置真的笑一下、顿一下。你细想，机器朗读和真人说话，差的不就是这点东西么——一句话该停哪、哪里轻飘飘带过、说到好笑处先忍不住笑了半声再往下讲。播音员念稿是把字念准，朋友跟你聊天是带着这些小毛刺的。ChatTTS 想抓的就是这些小毛刺。

韵律这块它确实下了功夫。所谓韵律，就是语调的起伏、轻重、节奏。它的说明里写，在韵律上超过了大多数开源的同类模型。注意是「大多数开源同类」，不是全面第一、不是天下无敌，这个分寸得拎清，免得期待落空。

它还支持中英文混着说，也支持多个说话人，能做那种你一句我一句的双人对谈。音色是随机采出来的，你让它随机生成一个嗓音，听到满意的，把它固定下来反复用就行（不是克隆你认识的某个真人，是凭空给你一个新声音）。

用起来不算麻烦。开源，能在自己电脑上跑，有个网页界面，框里输入文字就能出声音，也有命令行。30秒的音频大概4GB 显存起步，普通带独显的机器够得着。

说点它的短板，免得你上来期待太高。它自己的说明里就坦白了，稳定性还不够——多说话人的时候、或者音质上，偶尔会翻车。这其实是这一类自回归模型的通病，不是它一家的毛病。情绪控制目前也就那么几个标记，笑、停顿这种，更细的喜怒哀乐还在以后的版本里。我没拿它大规模跑过，只是看了它的说明和示例，这话你听着权当参考。

有个细节我挺欣赏。作者明显是担心这东西被拿去作恶，伪造声音这事，想想就后怕。所以他在开源那一版模型里故意掺了点高频噪声、把音质也压低了，提高被滥用的门槛；还内部训了一个「检测是不是它生成的」的模型，说以后会开源出来。技术做到这份上还肯给自己上一道锁，不多见。

它是开源的，在 GitHub 上叫 ChatTTS，团队叫2noise。开源的那版是用4万小时音频训出来的（更全的主模型用了10万小时以上），到现在攒了接近4万颗 star。

#马力的AI知识分享##马力的AI开源项目分享#

发布于北京