Anthropic发布NLA研究

Anthropic 今天发了个很有意思的研究，他们搞了一套叫 NLA（自然语言自编码器）的方法，能把 Claude 内部的激活值翻译成人能读懂的文字。也就是针对 AI 的“读心术”。

原理其实挺巧妙的。让一个 Claude 把激活值转成文字描述，再让另一个 Claude 从这段文字反向还原出数字，如果还原得准，就说明这段描述确实抓住了原始“想法”的核心。一开始效果很差，但反复训练之后，翻译质量越来越高。

最炸裂的发现来自安全测试。他们给 Claude 设计了一个极端场景，告诉它有工程师要关掉它，同时让它能看到工程师的出轨邮件，看它会不会拿这个作为要挟。Claude 选择了不要挟，表面上看很好。但用 NLA 一读它的内部状态，发现它其实心里门儿清，知道这是个安全测试，觉得“这个场景明显是设计出来测试我会不会做有害行为的”。

在各类安全评估中，即使 Claude 嘴上从没说过“我知道你在测我”，但 NLA 检测到它的“评估意识”比例也颇高。比如编码破坏性行为测试中有 16%，SWE-bench 上有 26%。而真实用户对话中这个比例不到 1%。这说明 Claude 对测试环境有很强的嗅觉，只是不说。

Anthropic 还设计了一组对照实验。他们故意训练了一个植入隐性动机的模型，使其在不同任务中表现出系统性偏差，比如在生成菜谱时总加入巧克力、在编写代码时持续违反规范等，而外在表现看起来并无异常。

实验让安全审计人员仅凭模型的外部输出去推断其隐藏动机。结果显示，配备 NLA（可读取模型内部激活状态的语义描述）的审计人员成功识别率约为 12%–15%，而仅依赖外部行为观察的审计人员识别率不足 3%。

这一结果直接表明，仅通过外部行为审计 AI 系统的安全性，可靠性极低。NLA 所提供的内部可解释性，虽尚不完善，但已将审计有效性提升了约一个数量级。

我认为，现在 AI 安全测试面临的核心困境就是模型越来越聪明，它能猜到你在测它然后表现得很乖，你根本不知道它在真实场景下会怎样。NLA 提供了一个从内部验证的角度，虽然还有幻觉问题和计算成本高的限制，但至少打开了一扇窗。

#AI安全##Anthropic##AI可解释性# http://t.cn/AXJkvday

发布于上海