美团开源语音克隆模型

美团昨天开源了 LongCat-AudioDiT，用于零样本语音克隆，1B 和 3.5B 两个尺寸，本地跑没什么压力。

之前主流的语音克隆先将音频压缩成梅尔频谱图等中间表征，再依赖神经声码器“翻译”回波形。每一次转换都会带来信息损失与误差累积，最终的生成会丢失最需要保留的细腻音色与个性化细节。

而 LongCat-AudioDiT 则彻底抛弃梅尔谱等中间表示，直接在波形潜空间进行基于扩散模型的 TTS，从根源阻断数据转换的级联误差。并依靠两个关键改进：一是识别并纠正了一个长期存在的“训练-推理不匹配”问题；二是用自适应投影引导（APG）取代了传统的无分类器引导（CFG），从而大幅提升了最终的语音生成质量。

测试中，3.5B 模型的最终得分和效果超过了Seed-TTS、CosyVoice3.5、MiniMax-Speech等知名模型，验证了波形空间直接生成范式的有效性。

Paper：http://t.cn/AXIuZjeR
GitHub：http://t.cn/AXI9zUGc

发布于上海