论文：后训练数据审计

[LG]《Anatomy of Post-Training: Using Interpretability to Characterize Data and Shape the Learning Signal》L Bergen, U Bhalla, S Baskaran, M Loeffler… [GOODFIRE] (2026)

在 LLM 后训练中，标量奖励压缩了多个行为目标，使从业者看不到数据实际教给模型什么，导致虚假相关被学习并引发过度风格化、阿谀奉承等不良行为。

本文的核心洞见是：用可解释性工具在优化前检查偏好数据集，在概念层面统计性地识别区分"chosen"与"rejected"生成的潜在概念，并通过特征/数据干预将这些概念从学习信号中"解释掉"(explain away)——统一了激活引导、奖励塑形、接种提示和数据过滤等方法。

这项工作真正留下的遗产是将后训练从优化不透明的代理奖励转变为审计和雕刻学习信号本身的过程。它为后来者打开的新门是用 SAE 特征作为假设生成基础、通过干预在训练前阻止非目标行为，但尚未跨过的门槛是处理概念间的层级结构和条件依赖——当前方法假设概念独立，在风格、安全防护等组合行为上仍会产生脱靶效应。

arxiv.org/abs/2606.12360 #机器学习# #人工智能# #论文# #AI创造营#

发布于北京