Sebastian Raschka谈 自回归 Transformer vs 文本扩散模型
-------------------------------
最近几周,我经常被问到一个问题:在 2026 年,我们是否会看到自回归 Transformer 架构(即标准 LLM)的替代品?目前,我坚信在最先进(SOTA)的建模性能方面,Transformer 的地位依然稳固(至少在未来一到几年内)。
不过,它的确会发生一些变化。临近年底,我们看到业界更加关注混合架构(Hybrid Architectures)以及如何提高其效率。这当然不是什么新想法,但来自头部实验室的最新发布表明,现在的关注度比以往更强了。(例如,参见 Qwen3-Next、Kimi Linear、Nvidia Nemotron 3 以及带有稀疏注意力的 DeepSeek V3.2,如果你对更多细节感兴趣,我在《大型 LLM 架构比较》一文中都有涵盖。)
*参考图1经过效率调整的 Transformer 架构
话说回来,扩散语言模型(Diffusion Language Models) 怎么样呢?扩散语言模型之所以有吸引力,是因为它们能以相对较低的成本快速生成 Token。 前阵子我在《超越标准 LLM》一文中对此多写了一些。简而言之,我认为 2026 年我们会看到更多此类模型,Google 可能会推出 Gemini Diffusion 作为其更廉价的 Flash 模型的替代品。
然而,虽然扩散语言模型的优势在于并行生成 Token,但这同时也是一大劣势,因为由于并行生成,它们无法原生地将工具调用(Tool Calls)整合到其响应链中。
如前所述,众所周知文本扩散效率更高(尽管最近的研究也表明,如果你增加去噪步数(denoising steps)以匹配自回归模型(即我们的标准 LLM)的性能,那么最终的算力预算其实是一样的。)
我想表达的重点是什么呢? 我本打算讨论一月份发布的一系列有趣的研究,但我想简要强调一篇 2025 年 11 月就在我“待读论文”清单上的有趣论文,它突出了扩散语言模型的一个有趣优势:
“Diffusion Language Models are Super Data Learners” (扩散语言模型是超级数据学习者) ( arxiv.org/abs/2511.03276 )
这篇论文表明,当在多个 Epoch(训练轮次) 上进行训练时,文本扩散模型的表现要优于标准的自回归 (AR) LLM。
*参考图2《扩散语言模型是超级数据学习者》中的注释图
出于成本考虑,目前没有人会在多个 Epoch 上训练 LLM,但如果我们真的进行多轮训练,扩散模型似乎会有所改进(基于验证损失观察,这可能是由于减少了过拟合)。
非常有意思的结果!
#科技先锋官#
