小米的AI最近真的是全面开花，大家可以参考一下，真的在做大模型的是会这样的，尤其是做多模态的，不会只有一个语言大模型，而是会持续不断的发布各个不同的模型。比如说小米技术发的小米Xiaomi Dasheng，一个很多人没注意到但非常牛的东西。简单说：它是一个声音基座模型，能让设备同时听懂语音、

小米的AI最近真的是全面开花，大家可以参考一下，真的在做大模型的是会这样的，尤其是做多模态的，不会只有一个语言大模型，而是会持续不断的发布各个不同的模型。

比如说小米技术发的小米Xiaomi Dasheng，一个很多人没注意到但非常牛的东西。

简单说：它是一个声音基座模型，能让设备同时听懂语音、环境声和音乐。对于智能设备而言，雨声，水声，风声、婴儿哭声、厨房异常响动这些"非语音信号"，其实是非常重要的，有的时候重要程度超过语言识别。

Dasheng（大声？）选了MAE框架从底层重建，不走语音识别的老路，增量优化和底层重建不是程度差异，是方向差异。

数据量扩到10倍，指标反而降了，数据质量重要性远大于体量。

六维度标注一开始没人看好，后来发现恰恰是生成真实声场音频的关键。
DashengTokenizer打破了"高维特征不适合直接生成"的行业假设，一层结构统一了理解和生成，22个任务全面SOTA。

从一台8卡机器开始，每一步都踩在没有现成答案的地方。这才是技术团队该有的样子。

发布于辽宁