【苹果和英伟达合作新的推测解码方法，可将文本生成速度提升2.7倍】众所周知，对于#自回归模型# 而言，内存带宽一直是制约推理性能的关键瓶颈。当模型生成文本时，它需要反复执行前向传播来预测每个 token，这个过程不仅需要大量的计算资源，更重要的是会频繁访问内存来获取模型权重和中间状态。这种

【苹果和英伟达合作新的推测解码方法，可将文本生成速度提升2.7倍】

众所周知，对于#自回归模型# 而言，内存带宽一直是制约推理性能的关键瓶颈。当模型生成文本时，它需要反复执行前向传播来预测每个 token，这个过程不仅需要大量的计算资源，更重要的是会频繁访问内存来获取模型权重和中间状态。这种内存密集型的特性导致了较高的延迟，影响用户体验。

去年，学界兴起了一种称为推测解码（Speculative Decoding）的技术用以缓解这一问题。这种方法使用较小的“草稿”模型来预测可能的未来 token 序列，再由主模型验证，从而实现并行化生成，提高推理效率。

今年初，#苹果# 提出了一种新的推测解码方法 Recurrent Drafter （ReDrafter），对原有方法进行了改进。通过将 RNN 草稿模型与动态树注意力机制相结合，ReDrafter 在每个生成步骤中最多可接受 3.5 个 token，超越了此前方法的水平。

最近，苹果又宣布与#英伟达# 展开深度技术合作，将其创新的 ReDrafter 推测解码技术整合到英伟达 TensorRT-LLM 推理加速框架中。这项合作将帮助开发者在英伟达 GPU 上实现更高效的 LLM 推理性能。

ReDrafter 的核心是一个基于循环神经网络（RNN）的草稿模型。与先前的方法（如 Medusa）类似，它使用 Transformer 最后一层的输出作为输入。创新之处在于，它还将历史 token 的嵌入作为循环输入提供给草稿头。

戳链接查看详情：http://t.cn/A6uhP5Lv