美团发布多款AI模型

美团在AI的布局，虽然并不早，但是其志不在小。
怎么看出来的呢？
他们去年就发布了图像模型longcat-image，包括生图和编辑，然后还发布了longcat大语言模型，连视频模型也有。

这次又发布了音频模型，可以进行语音转文字，也可以进行语言克隆。
其中一个1B参数，大小只有5G，另外一个3B，大小15G。
这都是开源的。

根据美团的测试：
最大的模型变体 LongCat-TTS-3.5B 超越了先前的 SOTA 模型（Seed-TTS），在 Seed-ZH 数据集上将说话人相似度（SIM）分数从 0.809 提升至 0.818，在 Seed-Hard 数据集上从 0.776 提升至 0.797。

大语言模型、图像、语音、视频，全部覆盖，这肯定不是简单玩一下这么简单。
而是全面投入AI领域的节奏。

模型地址：
www.modelscope.cn/models/meituan-longcat/LongCat-AudioDiT-1B
www.modelscope.cn/models/meituan-longcat/LongCat-AudioDiT-3.5B

发布于江苏