挨踢牛魔王
26-04-02 15:24 微博认证:科技博主

美团在AI的布局,虽然并不早,但是其志不在小。
怎么看出来的呢?
他们去年就发布了图像模型longcat-image,包括生图和编辑,然后还发布了longcat大语言模型,连视频模型也有。

这次又发布了音频模型,可以进行语音转文字,也可以进行语言克隆。
其中一个1B参数,大小只有5G,另外一个3B,大小15G。
这都是开源的。

根据美团的测试:
最大的模型变体 LongCat-TTS-3.5B 超越了先前的 SOTA 模型(Seed-TTS),在 Seed-ZH 数据集上将说话人相似度(SIM)分数从 0.809 提升至 0.818,在 Seed-Hard 数据集上从 0.776 提升至 0.797。

大语言模型、图像、语音、视频,全部覆盖,这肯定不是简单玩一下这么简单。
而是全面投入AI领域的节奏。

模型地址:
www.modelscope.cn/models/meituan-longcat/LongCat-AudioDiT-1B
www.modelscope.cn/models/meituan-longcat/LongCat-AudioDiT-3.5B

发布于 江苏