美团发布LongCatAudioDiT模型

IT之家 26-04-02 16:04

微博认证：IT之家（www.ithome.com）官方微博

【#美团发布LongCatAudioDiT音频生成模型#：说话人相似度指标提升至 0.818，现已开源】美团发布 LongCat-AudioDiT 音频生成模型，直接于波形潜空间进行文本转语音，摒弃传统多阶段流程，有效减少误差累积。其 3.5B 版本在说话人相似度指标上超越多个知名模型，现已开源。#AI语音合成##美团开源#