实验式Lab 26-03-30 23:59

美团发布 SOTA 级语音克隆模型 LongCat-AudioDiT:

▪️ 规模与性能:提供 1B/3.5B 版本,支持中英双语。实现 SOTA 语音克隆性能(Seed-ZH SIM 0.818)。
▪️ 核心架构:基于非自回归扩散,直接在波形潜空间运行以减少复合误差。
▪️ 技术破局:引入 APG 算法取代 CFG 提升自然度;验证了“更好的 VAE ≠ 更好的 TTS”的反直觉结论。

发布于 四川