摇摆时间线ZHLMI 26-04-04 17:55
微博认证:上海慧龙计算机系统有限公司多媒体经理

美团昨天开源了 LongCat-AudioDiT,用于零样本语音克隆,1B 和 3.5B 两个尺寸,本地跑没什么压力。

之前主流的语音克隆先将音频压缩成梅尔频谱图等中间表征,再依赖神经声码器“翻译”回波形。每一次转换都会带来信息损失与误差累积,最终的生成会丢失最需要保留的细腻音色与个性化细节。

而 LongCat-AudioDiT 则彻底抛弃梅尔谱等中间表示,直接在波形潜空间进行基于扩散模型的 TTS,从根源阻断数据转换的级联误差。并依靠两个关键改进:一是识别并纠正了一个长期存在的“训练-推理不匹配”问题;二是用自适应投影引导(APG)取代了传统的无分类器引导(CFG),从而大幅提升了最终的语音生成质量。

测试中,3.5B 模型的最终得分和效果超过了Seed-TTS、CosyVoice3.5、MiniMax-Speech等知名模型,验证了波形空间直接生成范式的有效性。

Paper:http://t.cn/AXIuZjeR
GitHub:http://t.cn/AXI9zUGc

发布于 上海