[LG]《Surrogate Fidelity: When Can Open LLMs Explain Closed Ones?》P Chlenski, Z Carmichael, A Warikoo, C Shao… [Meta] (2026)
在可解释性 AI 领域,理解闭源模型(如 GPT-4)的内部机制是一个悬而未决的难题。过去的方法受困于 API 仅暴露输出概率而隐藏内部权重的限制,本质原因是研究者被迫依赖开源模型作为“代理解释器”,却从未验证过这些代理模型的判断逻辑是否真的与闭源目标一致。
本文的核心洞见是:把模型间的对齐从单一的“预测一致性”重新看作为包含“归因一致性”的层级校验。由此,通过对比输入扰动下的对数几率变化(Log-odds)这一关键操作使问题得以解开,揭示了即便两个模型对同一个问题给出相同答案,它们得出结论的因果路径(为什么重要)也往往大相径庭。
这项工作真正留下的遗产是确立了“代理忠实度”的度量层级,警示了仅凭预测结果相似就进行解释迁移的不可靠性。它为后来者打开的新门是利用 API 可获得的归因信号来量化解释的有效性,但尚未跨过的门槛是如何在不依赖标量化读数的情况下,对更复杂的开放式生成任务进行因果对齐验证。
arxiv.org/abs/2606.32008 #机器学习# #人工智能# #论文# #AI创造营#
发布于 北京
