自回归Transformer与扩散模型对比

Sebastian Raschka谈自回归 Transformer vs 文本扩散模型
-------------------------------
最近几周，我经常被问到一个问题：在 2026 年，我们是否会看到自回归 Transformer 架构（即标准 LLM）的替代品？目前，我坚信在最先进（SOTA）的建模性能方面，Transformer 的地位依然稳固（至少在未来一到几年内）。

不过，它的确会发生一些变化。临近年底，我们看到业界更加关注混合架构（Hybrid Architectures）以及如何提高其效率。这当然不是什么新想法，但来自头部实验室的最新发布表明，现在的关注度比以往更强了。（例如，参见 Qwen3-Next、Kimi Linear、Nvidia Nemotron 3 以及带有稀疏注意力的 DeepSeek V3.2，如果你对更多细节感兴趣，我在《大型 LLM 架构比较》一文中都有涵盖。）

*参考图1经过效率调整的 Transformer 架构

话说回来，扩散语言模型（Diffusion Language Models）怎么样呢？扩散语言模型之所以有吸引力，是因为它们能以相对较低的成本快速生成 Token。前阵子我在《超越标准 LLM》一文中对此多写了一些。简而言之，我认为 2026 年我们会看到更多此类模型，Google 可能会推出 Gemini Diffusion 作为其更廉价的 Flash 模型的替代品。

然而，虽然扩散语言模型的优势在于并行生成 Token，但这同时也是一大劣势，因为由于并行生成，它们无法原生地将工具调用（Tool Calls）整合到其响应链中。

如前所述，众所周知文本扩散效率更高（尽管最近的研究也表明，如果你增加去噪步数（denoising steps）以匹配自回归模型（即我们的标准 LLM）的性能，那么最终的算力预算其实是一样的。）

我想表达的重点是什么呢？我本打算讨论一月份发布的一系列有趣的研究，但我想简要强调一篇 2025 年 11 月就在我“待读论文”清单上的有趣论文，它突出了扩散语言模型的一个有趣优势：

“Diffusion Language Models are Super Data Learners” (扩散语言模型是超级数据学习者) ( arxiv.org/abs/2511.03276 )

这篇论文表明，当在多个 Epoch（训练轮次）上进行训练时，文本扩散模型的表现要优于标准的自回归 (AR) LLM。

*参考图2《扩散语言模型是超级数据学习者》中的注释图

出于成本考虑，目前没有人会在多个 Epoch 上训练 LLM，但如果我们真的进行多轮训练，扩散模型似乎会有所改进（基于验证损失观察，这可能是由于减少了过拟合）。

非常有意思的结果！
#科技先锋官#

发布于山东