Qwen3-TTS语音生成效果优秀

在 ComfyUI 里简单跑了一下 Qwen3-TTS，可以说是第一梯队的语音生成了，零样本克隆效果非常好，就克隆来说我觉得已经没必要再去 GPT-SoVITS 里专门搞个模型了。

VoiceDesign 语音生成很有意思，有时候你觉得差点意思，那提示词可以写得很详细，比如你可以加上说话人的年龄这种。

CustomVoice 这种样本就少点，除非你有方言的需求，否则我觉得也没必要非用不可。

用 1.7B 的模型就行，大部分人基本都能跑得动，除非你连 8GB 显存也没有（那你本地也没有跑 AI 的必要）。

发布于上海