论文研究代理忠实度|《surrogate fidelity》|surrogate fidelity|代理忠实度|预测一致性|归因一致性|open llms|closed llms

[LG]《Surrogate Fidelity: When Can Open LLMs Explain Closed Ones?》P Chlenski, Z Carmichael, A Warikoo, C Shao… [Meta] (2026)

在可解释性 AI 领域，理解闭源模型（如 GPT-4）的内部机制是一个悬而未决的难题。过去的方法受困于 API 仅暴露输出概率而隐藏内部权重的限制，本质原因是研究者被迫依赖开源模型作为“代理解释器”，却从未验证过这些代理模型的判断逻辑是否真的与闭源目标一致。

本文的核心洞见是：把模型间的对齐从单一的“预测一致性”重新看作为包含“归因一致性”的层级校验。由此，通过对比输入扰动下的对数几率变化（Log-odds）这一关键操作使问题得以解开，揭示了即便两个模型对同一个问题给出相同答案，它们得出结论的因果路径（为什么重要）也往往大相径庭。

这项工作真正留下的遗产是确立了“代理忠实度”的度量层级，警示了仅凭预测结果相似就进行解释迁移的不可靠性。它为后来者打开的新门是利用 API 可获得的归因信号来量化解释的有效性，但尚未跨过的门槛是如何在不依赖标量化读数的情况下，对更复杂的开放式生成任务进行因果对齐验证。

arxiv.org/abs/2606.32008 #机器学习# #人工智能# #论文# #AI创造营#

发布于北京