研究DFlash技术_新浪新闻

#小米大模型刷新全球最快推理速度#

研究了一下小米mimo-v2.5-pro-ultraspeed的技术博客
里面提到一个很关键的技术是dflash，刚才简单研究了一下。

我们都知道，小米mimo，deepseek，在最新的模型里，为了确保生成速度，提高效率，都引入了mtp（多token预测）技术。

这个原理大概是：用draft小模型先预测，然后大模型再批改。节省了大模型大量前向传播的次数，降低了计算开销，所以提高了效率，降低了成本。

但是呢，传统的draft模型依然是基于自回归范式的，也就是从左到右，从上到下，串行生成。虽然相对于大模型来说快很多，但是快的有限。

业界最近几年有在研究dllm，也就是扩散语言模型，扩散语言模型的神奇之处是它是并行生成，整体处理的，所以生成极快。坏处是去噪步数比较多，想要达到ar（自回归）的水平，目前还没有看到这方面的能力。

同时呢，全并行的扩散模型有个特点，是生成长度是固定的。所以后来就有了一种块扩撒模型的设想。块内并行生成，块外自回归生成。

所以dflash就是一种兼得二者之长的方法实践——用块扩散的模型来取代原本的自回归的draft模型。从而取得极其夸张的推理加速。

同时呢，dflash使用的隐藏特征本身来自于大模型，这意味着它本身只是一个很轻量的模块，而且预测的准确性是会有提高的

根据dflash论文的图表来看，加速速度非常夸张。全面领先业界先进水平。

当然，这背后又有一个复杂的权衡机制，这个权衡的就包括了draft模型的生成速度，生成精度，你生成的快了，但是mtp的能力很差，被接受的预测少了，那也不行。你生成的精度高了，被接受的模块多了，但是去噪步数太多，生成速度慢了，那也不好，毕竟最终把关的还是自回归的大模型，你只是用于加快推理速度的小实习生。

这个技术我觉得非常先进啊，之前一直关注dllm，感觉潜力很大，这就已经在业界投入使用了。感觉下一代的模型里很可能都要用这玩意儿

论文链接：http://t.cn/AXX1kvDk
小米博客链接：http://t.cn/AXXuRRM4

发布于内蒙古