内省耦合论文|introspective coupling|自我解释|行为正则化|忠实解释|语言模型

[CL]《Introspective Coupling: Self-Explanation Training Tracks Behavioral Change Despite Fixed Supervision》Z C Guo, L Ruis, J Andreas, B Z. Li [MIT] (2026)

在模型可解释性领域，训练语言模型生成「自我解释」是否存在真实性（Faithfulness）是一个悬而未决的难题。过去的方法受困于模型往往只是在模仿人类偏好的解释模式，而非反映其真实的决策逻辑，本质原因是训练所用的解释标签通常是静态的，无法捕捉模型在微调过程中发生的行为漂移。

本文的核心洞见是：将解释训练看作一种「内省耦合」过程。由此，通过在训练中引入行为正则化，使模型在学习旧版解释标签的同时，其解释能力会自发地向当前行为对齐。这种耦合机制使得模型即使在面对过时的监督信号时，生成的解释也更符合其当下的真实输出逻辑，而非机械重复训练目标。

这项工作真正留下的遗产是证明了模型具备一种无需额外监督即可同步解释与行为的内省本能。它为后来者打开的新门是利用固定数据集实现可扩展的忠实解释训练，降低了持续标注的成本，但尚未跨过的门槛是这种耦合在面对更复杂、非模板化的推理任务时是否依然稳健。

arxiv.org/abs/2606.32038 #机器学习# #人工智能# #论文# #AI创造营#

发布于北京