机智的娜娜
26-06-12 19:35 微博认证:汽车博主

小米的AI最近真的是全面开花,大家可以参考一下,真的在做大模型的是会这样的,尤其是做多模态的,不会只有一个语言大模型,而是会持续不断的发布各个不同的模型。

比如说小米技术发的小米Xiaomi Dasheng,一个很多人没注意到但非常牛的东西。

简单说:它是一个声音基座模型,能让设备同时听懂语音、环境声和音乐。对于智能设备而言,雨声,水声,风声、婴儿哭声、厨房异常响动这些"非语音信号",其实是非常重要的,有的时候重要程度超过语言识别。

Dasheng(大声?)选了MAE框架从底层重建,不走语音识别的老路,增量优化和底层重建不是程度差异,是方向差异。

数据量扩到10倍,指标反而降了,数据质量重要性远大于体量。

六维度标注一开始没人看好,后来发现恰恰是生成真实声场音频的关键。
DashengTokenizer打破了"高维特征不适合直接生成"的行业假设,一层结构统一了理解和生成,22个任务全面SOTA。

从一台8卡机器开始,每一步都踩在没有现成答案的地方。这才是技术团队该有的样子。

发布于 辽宁