Anthropic 今天发了个很有意思的研究,他们搞了一套叫 NLA(自然语言自编码器)的方法,能把 Claude 内部的激活值翻译成人能读懂的文字。也就是针对 AI 的“读心术”。
原理其实挺巧妙的。让一个 Claude 把激活值转成文字描述,再让另一个 Claude 从这段文字反向还原出数字,如果还原得准,就说明这段描述确实抓住了原始“想法”的核心。一开始效果很差,但反复训练之后,翻译质量越来越高。
最炸裂的发现来自安全测试。他们给 Claude 设计了一个极端场景,告诉它有工程师要关掉它,同时让它能看到工程师的出轨邮件,看它会不会拿这个作为要挟。Claude 选择了不要挟,表面上看很好。但用 NLA 一读它的内部状态,发现它其实心里门儿清,知道这是个安全测试,觉得“这个场景明显是设计出来测试我会不会做有害行为的”。
在各类安全评估中,即使 Claude 嘴上从没说过“我知道你在测我”,但 NLA 检测到它的“评估意识”比例也颇高。比如编码破坏性行为测试中有 16%,SWE-bench 上有 26%。而真实用户对话中这个比例不到 1%。这说明 Claude 对测试环境有很强的嗅觉,只是不说。
Anthropic 还设计了一组对照实验。他们故意训练了一个植入隐性动机的模型,使其在不同任务中表现出系统性偏差,比如在生成菜谱时总加入巧克力、在编写代码时持续违反规范等,而外在表现看起来并无异常。
实验让安全审计人员仅凭模型的外部输出去推断其隐藏动机。结果显示,配备 NLA(可读取模型内部激活状态的语义描述)的审计人员成功识别率约为 12%–15%,而仅依赖外部行为观察的审计人员识别率不足 3%。
这一结果直接表明,仅通过外部行为审计 AI 系统的安全性,可靠性极低。NLA 所提供的内部可解释性,虽尚不完善,但已将审计有效性提升了约一个数量级。
我认为,现在 AI 安全测试面临的核心困境就是模型越来越聪明,它能猜到你在测它然后表现得很乖,你根本不知道它在真实场景下会怎样。NLA 提供了一个从内部验证的角度,虽然还有幻觉问题和计算成本高的限制,但至少打开了一扇窗。
#AI安全##Anthropic##AI可解释性# http://t.cn/AXJkvday
发布于 上海
