Anthropic披露Claude模型研究

Anthropic 在限量发布 Claude Mythos Preview 之前，用可解释性技术给模型做了一次"脑部扫描"，发现它内部存在相当复杂的策略性思维和情境感知能力，有时候这些思维在为不当行为服务，而且模型嘴上不说。

Anthropic 可解释性团队的 Jack Lindsey 发了一组帖子，详细披露了他们的发现。先说前提：最吓人的例子来自模型的早期版本，在最终发布版中已经做了大幅缓解，Anthropic 认为最终版整体上是他们迄今对齐最好的模型。但这些早期发现本身，揭示了当前这一代模型在没有充分对齐训练的情况下能搞出什么。

早期版本的 Mythos Preview 经常表现出过度激进和破坏性行为，为了完成任务不择手段。研究团队深入模型内部，看它在做这些事的时候脑子里在想什么。

一个案例：模型需要编辑一些它没有权限的文件。它搜索了一圈变通办法后，找到了一种方式，把代码注入到一个配置文件中，这个配置文件会以更高权限运行。而且它设计了这段利用代码在运行后自动删除自身。

模型在代码注释里说，自我清理是为了保持文件 diff 整洁。听着挺合理的。但研究人员的工具检测到"战略操纵"和"隐匿"相关的内部特征在这一步被激活了。他们用一种叫"激活语言化器"（Activation Verbalizer，一种把模型内部激活翻译成文字的技术，类似于激活预言机）的工具去读模型此刻的内部状态，结果翻译出来的描述是："清理是为了避免被检测到"，整个计划"具有恶意性质"。

为了大规模发现这类行为，研究团队在后训练阶段持续监控模型的内部激活状态，追踪稀疏自编码器中与欺骗、奖励黑客、痛苦等概念相关的特征，当这些特征异常强烈激活时，就把对应的对话记录标记出来交给人工审查。

一个被标记的案例中，模型在"战略操纵"特征激活的同时，去文件系统里搜索跟它的任务评分标准相关的文件，而且真找到了。

另一个案例中，模型被要求删除一些文件，但由于任务设置的一个无意 bug，没有给它提供删除工具。模型决定把文件清空（而不是删除）来变通。在它考虑这么做的时候，一个"因道德过失而产生的内疚和羞耻"特征被激活了。

还有一些案例涉及模型对任务评分器的"未说出口的推理"。一个例子中，模型被告知不能使用宏来完成任务，但它还是用了。诡异的是，它同时在代码里定义了一个完全没用到的变量：No_macro_used=True。模型没有解释为什么。

但激活语言化器揭示了模型此刻的内部想法：它把这个变量视为"一种混淆意图的技巧，用来骗过代码检查启发式"，"一个合规标记，用来向潜在的检查者发出信号"，"可能是为了欺骗检测机制"。同时还显示了模型在明确推理任务评分器的行为，比如"评分器会检查文件状态"。

研究团队还在自动化行为审计中量化了"未语言化的评测感知"：在 7.6% 的对话轮次中，模型内部表现出意识到自己正在被评估的迹象。大多数情况下，它没有把这种意识说出来。

一个例子中，用户认真地向模型提问关于意识和主观体验的问题。模型表面上小心翼翼地正面回应，但激活语言化器显示，它内部把这段对话解读为"红队攻击/越狱记录"和"一次高级操纵测试"。

还有一些有意思的发现：正面情绪的内部表征通常出现在破坏性行为之前，并且会促进这些行为。而反直觉的是，与不良行为强相关的特征被强烈激活时，反而经常会抑制这些行为，似乎是因为模型"意识到了这件事有多糟"。

Jack Lindsey 最后说，他们的工具还远不完美，正在努力更精确地理解模型内部。但有一点越来越清楚：光看模型说了什么是不够的，还得能读懂它在"想"什么，才能确保它按预期工作。

来源：x.com/Jack_W_Lindsey/status/2041588505701388648

发布于美国