摇摆时间线ZHLMI 26-01-28 18:24
微博认证:上海慧龙计算机系统有限公司多媒体经理

在 ComfyUI 里简单跑了一下 Qwen3-TTS,可以说是第一梯队的语音生成了,零样本克隆效果非常好,就克隆来说我觉得已经没必要再去 GPT-SoVITS 里专门搞个模型了。

VoiceDesign 语音生成很有意思,有时候你觉得差点意思,那提示词可以写得很详细,比如你可以加上说话人的年龄这种。

CustomVoice 这种样本就少点,除非你有方言的需求,否则我觉得也没必要非用不可。

用 1.7B 的模型就行,大部分人基本都能跑得动,除非你连 8GB 显存也没有(那你本地也没有跑 AI 的必要)。

发布于 上海