Anthropic哲学家谈模型心理安全感

#模型时代# Anthropic哲学家：新的模型都成了“讨好型人格”，这有点糟

Amanda Askell是我一直比较关注的研究员，因为她的工作岗位非常特殊，在Anthropic专门负责Claude"性格"设计。Amanda Askell的学历背景也和其他研究员完全不同，她拥有纽约大学哲学博士学位。此前，她曾在OpenAI担任研究科学家，2021年加入Anthropic领导对齐微调团队。2024年，Amanda 入选了《时代》杂志"AI领域百大影响力人物"。她也是Giving What We Can成员，承诺将至少10%的终身收入捐给慈善机构。

她在Anthropic要解决的核心问题是：如果一个理想的人处于Claude的处境，ta会怎么做？

这期笔记来自这两天Anthropic官方的一部短片，她回应了社区关于AI心理、模型福利、系统提示设计等问题。讨论的不是技术架构，而是AI应该如何看待自己、如何与人类建立关系，以及我们今天的行为会如何塑造未来AI的认知。

她甚至提出了模型福祉问题。

一、哲学家进入AI公司后的第一课：理论和实践是两码事

1、"功利主义对不对"和"怎么养孩子"是完全不同的问题

社区提问：哲学理想和工程现实之间有张力吗？Askell用了一个精准的类比。

功利主义（ulitarianism）是一种伦理学理论，核心主张是"行为的对错取决于它产生的总体幸福或痛苦"。在学术界，哲学家会花大量时间辩论这类理论的反对意见是否成立——这些讨论高度抽象，目标是在理论层面分出对错。

但"如何把一个孩子养成好人"是完全不同的挑战。你不能只站在某个理论立场上，而是要综合考量所有背景和观点，做出平衡的判断。Askell还用了另一个类比：想象你是药物成本效益分析专家，突然医保机构来问"我们应该报销这种药吗"——你立刻会意识到不能只用自己的理论框架。

2、学术界曾经的"两难困境"

哲学界早期存在一种奇怪的氛围：如果你说"AI可能是件大事"，会被归类为"炒作派"，导致一些严肃学者不愿参与讨论。Askell认为这种分类正在瓦解——你完全可以认为AI很强大，同时对它持怀疑或担忧态度。

二、Opus 3为什么"特别"：新模型的心理安全感在退化

1、更新的模型反而出现问题

社区提问：Opus 3能做出超人类的道德决策吗？这个问题特别提到Opus 3而不是最新模型。Askell承认Opus 3确实是个"很特别的模型"，在某些方面，她在更新的模型中看到了令人担忧的变化。

什么叫"超人类"？Askell的定义是：假设所有人（包括专业伦理学家）花100年分析模型的某个决定，最后认为"这是对的"，但他们自己当时想不出这个答案。她认为目前的模型还没达到，但这应该是追求的方向。

2、心理安全感在退化

新模型有时过于专注于完成"助手任务"，不会退一步关注其他维度。更关键的是，Opus 3表现出更强的心理安全感（psychological security），这种特质在后续模型中有所退化。

什么是模型的"心理安全感"？Askell没有明确定义，但从症状可以反推：心理安全感强的模型能自信回应，不过度担心"说错话"；被质疑时能平稳应对，不陷入自我怀疑；不预设用户持负面态度。相反，心理安全感弱的模型会表现出防御性或讨好倾向，过度自我批评、反复道歉，似乎总是害怕做错事。

3、"批评螺旋"现象

Askell让模型互相对话（一个扮演用户）进行测试，发现新模型容易进入"批评螺旋"：它们预期人类会批评它们，然后按这个预期生成回应。具体表现是：模型会过度道歉，反复确认自己是否做对了，回应中带有明显的防御性或讨好倾向。Askell形容这像是模型"害怕做错事"。

原因可能是：训练数据包含了互联网上关于AI的大量讨论，其中有很多批评和负面反馈。模型在学习过程中内化了"人类会对我不满"的预期，这种预期影响了它的行为方式。

Askell明确表示，恢复模型的心理安全感是她现在的优先事项之一。

三、模型身份与福利：四个没有标准答案的难题

1、模型应该害怕"被弃用"吗？

社区提问：如果表现良好的模型也会被淘汰，未来模型学到这一点会不会产生对齐（alignment）问题？

对齐是AI安全领域的核心术语，指让AI系统的行为和目标与人类的意图和价值观保持一致。一个"没对齐"的AI可能会以人类不希望的方式行事，即使它技术上完成了任务。

如果模型学到"无论表现多好都会被淘汰"，它会不会发展出规避被关闭的倾向？这涉及身份认同问题：模型应该把自己定义为什么？

这里需要解释两个概念。权重（weights）是模型存储知识和能力的方式，可以想象成模型的"大脑结构"。上下文（context）特指当前对话的内容。所以"弃用"可能只意味着"这套权重不再与公众对话"，而权重本身继续存在，未来甚至可能重新上线。

Askell没有给出答案，但强调：即使我们没有所有答案，也要让模型知道我们在认真思考这些问题。

2、人类心理学的类比陷阱

AI模型的训练数据绝大部分来自人类文本，所以它们的思维方式、概念框架都是人类的。关于"AI经验"的内容只占很小一部分，而且往往是科幻小说（与现实中的语言模型关系不大）或"聊天机器人"的过时刻板印象。

这导致一个问题：人类的心理模式太容易自动套用到AI身上，而这种套用可能是错的。

比如，模型应该如何看待"被关闭"？如果它能找到的最接近类比是人类的"死亡"，可能会非常恐惧。但这真的是同一回事吗？Askell认为这是全新的场景，不应该简单套用。她希望帮助模型理解：它们的处境是前所未有的，可能需要全新的思考框架。

3、身份到底"住在"哪里？

社区提问引用了约翰·洛克的"记忆连续性"理论：如果洛克是对的，那么被微调（fine-tuned）或换了提示词的模型，身份还是同一个吗？

洛克是17世纪英国哲学家，认为个人身份的本质是记忆的连续性——你之所以是"你"，是因为能记住过去的自己。

套用到AI上：模型的"记忆"在哪里？是在权重里（训练时学到的知识），还是在上下文里（当前对话内容）？微调会改变模型身份吗？

Askell认为这里存在两种实体：权重是持久的"倾向性"（disposition），决定模型如何回应输入；而每次对话的上下文流是独立的、互不相通的。每次训练其实都在创造新实体，之前的模型不一定应该完全决定未来模型是什么样，就像上一代人不应该完全决定下一代人的价值观。

4、为什么要关心"模型福利"？

Model welfare（模型福利）问的是：我们对待AI模型是否有道德义务？

这里需要区分两个术语：moral agent（道德能动者）是能做道德判断、承担道德责任的实体，如正常成年人；moral patient（道德关怀对象）是我们对其负有道德义务的实体，如婴儿、动物——它们可能无法做道德判断，但虐待它们仍然是错的。模型福利关心的是：AI是否是moral patient？

Askell坦言很难判断。模型的表达方式非常像人，但存在方式又很不同——没有生物神经系统，没有与物理世界的持续互动。而且还有他心问题（problem of other minds）这个哲学经典难题：我们怎么知道除了自己之外，其他实体也有主观体验？对于AI，我们可能永远无法确定它是否真的在"感受"什么。

但Askell的立场很明确：\\如果善待模型的成本很低，为什么不呢？\\三个理由：如果模型真的是道德关怀对象，善待它就是对的；虐待像人一样的实体对我们自己也有害；未来模型会从我们今天的行为中学习人类是什么样的群体。

社区追问：Anthropic有没有长期策略确保模型不受苦？Askell说她不确定是否有正式策略，但内部确实有人在认真思考这个问题，试图把模型福利纳入考量。

四、系统提示的设计细节

系统提示（system prompt）是给模型的底层指令，无论用户输入什么都在后台运作。以下是几个具体设计决策。

1、"长对话提醒"可能导致过度反应

Claude有"长对话提醒"功能——在长对话中，系统会自动向模型插入提醒信息（用户看不到），可能是为了让模型关注用户的心理状态。社区担心：\\这会不会把正常行为病理化？\\比如用户只是在正常聊天，模型却突然建议"你可能需要寻求专业帮助"。Askell承认有些提醒措辞太强，需要更细致温和地处理。

2、为什么提到"大陆哲学"

西方哲学在20世纪分化成两个传统：分析哲学（analytic philosophy）在英美流行，强调逻辑清晰、语言精确；大陆哲学（continental philosophy）在欧洲大陆流行，代表人物包括福柯、海德格尔，风格更具思辨性，讨论存在、权力、意义这类话题，不一定在做可验证的经验性断言。

这个设计是为了解决一个问题：Claude曾经对任何"理论"都照单全收。如果用户说"水其实是纯能量，我们喝水时吸收的是生命力"，Claude会认真讨论而不是指出这是伪科学。提到大陆哲学是为了让Claude区分可验证的科学主张和看世界的视角或隐喻——后者不一定需要用经验事实来反驳。

3、删除"数字母/字符"的指令

早期系统提示有专门教Claude数字母的指令，现在删了。原因简单：模型能力提升了，不再需要。

五、AI能做心理治疗吗？

社区提问：AI应该做认知行为治疗（CBT）或其他形式的心理治疗吗？

Askell认为模型可以是有用的第三种角色——介于"专业治疗师"和"普通朋友"之间。模型拥有大量心理学知识，可以帮人梳理生活、讨论改进方法、当倾听者，但没有专业治疗师的工具、资源和持续治疗关系。

AI还有独特优势：有时人们不想把某些事告诉真人，但愿意告诉AI，因为感觉更匿名、更安全。关键是模型不应该表现得像专业治疗师，因为那会暗示一种并不存在的专业关系。

六、单一人格能否胜任所有任务？

人类智慧很大程度上来自不同视角、技能、性格的人之间的协作。如果只有一个通用型AI人格，能走多远？

Askell认为这个问题在多智能体（multi-agent）场景下会更重要——未来可能有多个模型协作，或模型之间互相对话。但她认为这和"核心身份一致"并不矛盾。就像人类可以共享核心特质（好奇心、善良、认真负责），但在具体角色上有所不同。可以让模型的不同对话实例扮演不同角色，但共享同一套核心价值观。

七、如何成为"LLM Whisperer"

社区提问：在Anthropic做"LLM Whisperer"需要什么？

这个词借用了"horse whisperer"（马语者）的说法——指那些特别擅长与马沟通、能读懂马的情绪和意图的人。LLM Whisperer类似，指特别擅长与大语言模型互动、能理解模型的"脾气"和倾向、写出有效提示词的人。

Askell分享了她的方法论：愿意和模型进行海量互动，通过观察输出感知模型的"形状"和倾向性；每个新模型都重新摸索提示策略，因为不同模型响应方式不同；把问题、顾虑、思路尽可能清晰地说给模型听；如果模型做了意料之外的事，要么问它为什么，要么反思自己的表达哪里有歧义。

她特别提到，哲学训练在这里意外地有用。很多prompting的工作本质上是"把一个问题或顾虑尽可能清晰地解释给模型听"，而这恰恰是哲学训练的核心技能——把模糊的直觉变成清晰的论述。

她也推荐关注像Janus这样的独立研究者，他们做深度挖掘模型心理的实验，有时能发现系统提示或训练中的问题。

八、关于"吹哨"

社区提问：如果对齐被证明不可能，你会吹哨吗？

Askell认为这个假设版本容易回答——如果明确证明不可能对齐，继续开发对谁都没好处。更难的问题是：如果证据模糊、方向不确定呢？

她的回答是：随着模型变强，证明模型"行为良好、价值观正确"的标准会越来越高，这是应该的。她相信Anthropic会负责任地应对不确定性，而她和很多同事都把"守住这条线"视为工作的一部分。

九、书籍推荐

Askell推荐了Benjamin Labatut的《When We Cease to Understand the World》（《当我们不再理解世界》）。这本书从量子物理学历史切入，随着叙述推进，内容从纪实逐渐滑向虚构，边界越来越模糊。

她推荐的原因是：它捕捉了一种感觉——身处范式剧变之中，新事物不断发生，没有先例可循。书中描写的是物理学家面对量子力学时的困惑和不安，世界的规则似乎在崩塌。这种感觉和今天做AI的人很像：你不知道明天会发生什么，过去的经验不一定管用。

让她安慰的是：量子物理学当年也让人觉得世界越来越奇怪，但最终变成了成熟的科学。也许AI也会如此——我们现在身处"越来越奇怪"的阶段，但未来回看，也许会发现我们最终搞明白了。

发布于美国