槐角不甘心
26-06-09 09:51 微博认证:汽车博主

#小米大模型刷新全球最快推理速度#

研究了一下小米mimo-v2.5-pro-ultraspeed的技术博客
里面提到一个很关键的技术是dflash,刚才简单研究了一下。

我们都知道,小米mimo,deepseek,在最新的模型里,为了确保生成速度,提高效率,都引入了mtp(多token预测)技术。

这个原理大概是:用draft小模型先预测,然后大模型再批改。节省了大模型大量前向传播的次数,降低了计算开销,所以提高了效率,降低了成本。

但是呢,传统的draft模型依然是基于自回归范式的,也就是从左到右,从上到下,串行生成。虽然相对于大模型来说快很多,但是快的有限。

业界最近几年有在研究dllm,也就是扩散语言模型,扩散语言模型的神奇之处是它是并行生成,整体处理的,所以生成极快。坏处是去噪步数比较多,想要达到ar(自回归)的水平,目前还没有看到这方面的能力。

同时呢,全并行的扩散模型有个特点,是生成长度是固定的。所以后来就有了一种块扩撒模型的设想。块内并行生成,块外自回归生成。

所以dflash就是一种兼得二者之长的方法实践——用块扩散的模型来取代原本的自回归的draft模型。从而取得极其夸张的推理加速。

同时呢,dflash使用的隐藏特征本身来自于大模型,这意味着它本身只是一个很轻量的模块,而且预测的准确性是会有提高的

根据dflash论文的图表来看,加速速度非常夸张。全面领先业界先进水平。

当然,这背后又有一个复杂的权衡机制,这个权衡的就包括了draft模型的生成速度,生成精度,你生成的快了,但是mtp的能力很差,被接受的预测少了,那也不行。你生成的精度高了,被接受的模块多了,但是去噪步数太多,生成速度慢了,那也不好,毕竟最终把关的还是自回归的大模型,你只是用于加快推理速度的小实习生。

这个技术我觉得非常先进啊,之前一直关注dllm,感觉潜力很大,这就已经在业界投入使用了。感觉下一代的模型里很可能都要用这玩意儿

论文链接:http://t.cn/AXX1kvDk
小米博客链接:http://t.cn/AXXuRRM4

发布于 内蒙古