[LG]《How Transparent is DiffusionGemma?》J Engels, C McDougall, B Chughtai, J Kramar… [Google DeepMind] (2026)
在语言模型可解释性领域,模型决策的透明度是一个悬而未决的难题。过去的方法受困于对自回归架构(如 GPT 系列)逐词生成逻辑的路径依赖,本质原因是新兴的扩散模型在连续隐空间中进行迭代演化,其推理过程不再遵循人类可读的线性逻辑,导致中间状态在直觉上显得像是一个无法解读的“黑盒”。
本文的核心洞见是:把扩散模型的中间隐状态重新看作一种可以通过“逻辑透镜”投影的离散令牌瓶颈。由此,研究者发现通过仅保留每一步概率最高的少数几个令牌,就能在不损失模型性能的前提下,将原本模糊的连续向量还原为可理解的思维碎片,从而证明扩散模型的推理路径依然可以被映射回人类语言空间。
这项工作真正留下的遗产是确立了评估非自回归模型透明度的标准框架,并揭示了扩散模型特有的非时序推理、令牌抹除等新奇认知现象。它为后来者打开的新门是利用中间状态监控模型安全性的可能性,但尚未跨过的门槛是:当未来模型演进到更大画布或更深层隐空间推理时,这种基于令牌投影的简化解释是否依然能够保持忠实。
arxiv.org/abs/2606.20560 #机器学习# #人工智能# #论文# #AI创造营#
发布于 北京
