【#美团发布LongCatAudioDiT音频生成模型#:说话人相似度指标提升至 0.818,现已开源】美团发布 LongCat-AudioDiT 音频生成模型,直接于波形潜空间进行文本转语音,摒弃传统多阶段流程,有效减少误差累积。其 3.5B 版本在说话人相似度指标上超越多个知名模型,现已开源。#AI语音合成##美团开源#
【#美团发布LongCatAudioDiT音频生成模型#:说话人相似度指标提升至 0.818,现已开源】美团发布 LongCat-AudioDiT 音频生成模型,直接于波形潜空间进行文本转语音,摒弃传统多阶段流程,有效减少误差累积。其 3.5B 版本在说话人相似度指标上超越多个知名模型,现已开源。#AI语音合成##美团开源#