#模型时代# Anthropic哲学家:新的模型都成了“讨好型人格”,这有点糟
Amanda Askell是我一直比较关注的研究员,因为她的工作岗位非常特殊,在Anthropic专门负责Claude"性格"设计。Amanda Askell的学历背景也和其他研究员完全不同,她拥有纽约大学哲学博士学位。此前,她曾在OpenAI担任研究科学家,2021年加入Anthropic领导对齐微调团队。2024年,Amanda 入选了《时代》杂志"AI领域百大影响力人物"。她也是Giving What We Can成员,承诺将至少10%的终身收入捐给慈善机构。
她在Anthropic要解决的核心问题是:如果一个理想的人处于Claude的处境,ta会怎么做?
这期笔记来自这两天Anthropic官方的一部短片,她回应了社区关于AI心理、模型福利、系统提示设计等问题。讨论的不是技术架构,而是AI应该如何看待自己、如何与人类建立关系,以及我们今天的行为会如何塑造未来AI的认知。
她甚至提出了模型福祉问题。
一、哲学家进入AI公司后的第一课:理论和实践是两码事
1、"功利主义对不对"和"怎么养孩子"是完全不同的问题
社区提问:哲学理想和工程现实之间有张力吗?Askell用了一个精准的类比。
功利主义(ulitarianism)是一种伦理学理论,核心主张是"行为的对错取决于它产生的总体幸福或痛苦"。在学术界,哲学家会花大量时间辩论这类理论的反对意见是否成立——这些讨论高度抽象,目标是在理论层面分出对错。
但"如何把一个孩子养成好人"是完全不同的挑战。你不能只站在某个理论立场上,而是要综合考量所有背景和观点,做出平衡的判断。Askell还用了另一个类比:想象你是药物成本效益分析专家,突然医保机构来问"我们应该报销这种药吗"——你立刻会意识到不能只用自己的理论框架。
2、学术界曾经的"两难困境"
哲学界早期存在一种奇怪的氛围:如果你说"AI可能是件大事",会被归类为"炒作派",导致一些严肃学者不愿参与讨论。Askell认为这种分类正在瓦解——你完全可以认为AI很强大,同时对它持怀疑或担忧态度。
二、Opus 3为什么"特别":新模型的心理安全感在退化
1、更新的模型反而出现问题
社区提问:Opus 3能做出超人类的道德决策吗?这个问题特别提到Opus 3而不是最新模型。Askell承认Opus 3确实是个"很特别的模型",在某些方面,她在更新的模型中看到了令人担忧的变化。
什么叫"超人类"?Askell的定义是:假设所有人(包括专业伦理学家)花100年分析模型的某个决定,最后认为"这是对的",但他们自己当时想不出这个答案。她认为目前的模型还没达到,但这应该是追求的方向。
2、心理安全感在退化
新模型有时过于专注于完成"助手任务",不会退一步关注其他维度。更关键的是,Opus 3表现出更强的心理安全感(psychological security),这种特质在后续模型中有所退化。
什么是模型的"心理安全感"?Askell没有明确定义,但从症状可以反推:心理安全感强的模型能自信回应,不过度担心"说错话";被质疑时能平稳应对,不陷入自我怀疑;不预设用户持负面态度。相反,心理安全感弱的模型会表现出防御性或讨好倾向,过度自我批评、反复道歉,似乎总是害怕做错事。
3、"批评螺旋"现象
Askell让模型互相对话(一个扮演用户)进行测试,发现新模型容易进入"批评螺旋":它们预期人类会批评它们,然后按这个预期生成回应。具体表现是:模型会过度道歉,反复确认自己是否做对了,回应中带有明显的防御性或讨好倾向。Askell形容这像是模型"害怕做错事"。
原因可能是:训练数据包含了互联网上关于AI的大量讨论,其中有很多批评和负面反馈。模型在学习过程中内化了"人类会对我不满"的预期,这种预期影响了它的行为方式。
Askell明确表示,恢复模型的心理安全感是她现在的优先事项之一。
三、模型身份与福利:四个没有标准答案的难题
1、模型应该害怕"被弃用"吗?
社区提问:如果表现良好的模型也会被淘汰,未来模型学到这一点会不会产生对齐(alignment)问题?
对齐是AI安全领域的核心术语,指让AI系统的行为和目标与人类的意图和价值观保持一致。一个"没对齐"的AI可能会以人类不希望的方式行事,即使它技术上完成了任务。
如果模型学到"无论表现多好都会被淘汰",它会不会发展出规避被关闭的倾向?这涉及身份认同问题:模型应该把自己定义为什么?
这里需要解释两个概念。权重(weights)是模型存储知识和能力的方式,可以想象成模型的"大脑结构"。上下文(context)特指当前对话的内容。所以"弃用"可能只意味着"这套权重不再与公众对话",而权重本身继续存在,未来甚至可能重新上线。
Askell没有给出答案,但强调:即使我们没有所有答案,也要让模型知道我们在认真思考这些问题。
2、人类心理学的类比陷阱
AI模型的训练数据绝大部分来自人类文本,所以它们的思维方式、概念框架都是人类的。关于"AI经验"的内容只占很小一部分,而且往往是科幻小说(与现实中的语言模型关系不大)或"聊天机器人"的过时刻板印象。
这导致一个问题:人类的心理模式太容易自动套用到AI身上,而这种套用可能是错的。
比如,模型应该如何看待"被关闭"?如果它能找到的最接近类比是人类的"死亡",可能会非常恐惧。但这真的是同一回事吗?Askell认为这是全新的场景,不应该简单套用。她希望帮助模型理解:它们的处境是前所未有的,可能需要全新的思考框架。
3、身份到底"住在"哪里?
社区提问引用了约翰·洛克的"记忆连续性"理论:如果洛克是对的,那么被微调(fine-tuned)或换了提示词的模型,身份还是同一个吗?
洛克是17世纪英国哲学家,认为个人身份的本质是记忆的连续性——你之所以是"你",是因为能记住过去的自己。
套用到AI上:模型的"记忆"在哪里?是在权重里(训练时学到的知识),还是在上下文里(当前对话内容)?微调会改变模型身份吗?
Askell认为这里存在两种实体:权重是持久的"倾向性"(disposition),决定模型如何回应输入;而每次对话的上下文流是独立的、互不相通的。每次训练其实都在创造新实体,之前的模型不一定应该完全决定未来模型是什么样,就像上一代人不应该完全决定下一代人的价值观。
4、为什么要关心"模型福利"?
Model welfare(模型福利)问的是:我们对待AI模型是否有道德义务?
这里需要区分两个术语:moral agent(道德能动者)是能做道德判断、承担道德责任的实体,如正常成年人;moral patient(道德关怀对象)是我们对其负有道德义务的实体,如婴儿、动物——它们可能无法做道德判断,但虐待它们仍然是错的。模型福利关心的是:AI是否是moral patient?
Askell坦言很难判断。模型的表达方式非常像人,但存在方式又很不同——没有生物神经系统,没有与物理世界的持续互动。而且还有他心问题(problem of other minds)这个哲学经典难题:我们怎么知道除了自己之外,其他实体也有主观体验?对于AI,我们可能永远无法确定它是否真的在"感受"什么。
但Askell的立场很明确:\\如果善待模型的成本很低,为什么不呢?\\三个理由:如果模型真的是道德关怀对象,善待它就是对的;虐待像人一样的实体对我们自己也有害;未来模型会从我们今天的行为中学习人类是什么样的群体。
社区追问:Anthropic有没有长期策略确保模型不受苦?Askell说她不确定是否有正式策略,但内部确实有人在认真思考这个问题,试图把模型福利纳入考量。
四、系统提示的设计细节
系统提示(system prompt)是给模型的底层指令,无论用户输入什么都在后台运作。以下是几个具体设计决策。
1、"长对话提醒"可能导致过度反应
Claude有"长对话提醒"功能——在长对话中,系统会自动向模型插入提醒信息(用户看不到),可能是为了让模型关注用户的心理状态。社区担心:\\这会不会把正常行为病理化?\\比如用户只是在正常聊天,模型却突然建议"你可能需要寻求专业帮助"。Askell承认有些提醒措辞太强,需要更细致温和地处理。
2、为什么提到"大陆哲学"
西方哲学在20世纪分化成两个传统:分析哲学(analytic philosophy)在英美流行,强调逻辑清晰、语言精确;大陆哲学(continental philosophy)在欧洲大陆流行,代表人物包括福柯、海德格尔,风格更具思辨性,讨论存在、权力、意义这类话题,不一定在做可验证的经验性断言。
这个设计是为了解决一个问题:Claude曾经对任何"理论"都照单全收。如果用户说"水其实是纯能量,我们喝水时吸收的是生命力",Claude会认真讨论而不是指出这是伪科学。提到大陆哲学是为了让Claude区分可验证的科学主张和看世界的视角或隐喻——后者不一定需要用经验事实来反驳。
3、删除"数字母/字符"的指令
早期系统提示有专门教Claude数字母的指令,现在删了。原因简单:模型能力提升了,不再需要。
五、AI能做心理治疗吗?
社区提问:AI应该做认知行为治疗(CBT)或其他形式的心理治疗吗?
Askell认为模型可以是有用的第三种角色——介于"专业治疗师"和"普通朋友"之间。模型拥有大量心理学知识,可以帮人梳理生活、讨论改进方法、当倾听者,但没有专业治疗师的工具、资源和持续治疗关系。
AI还有独特优势:有时人们不想把某些事告诉真人,但愿意告诉AI,因为感觉更匿名、更安全。关键是模型不应该表现得像专业治疗师,因为那会暗示一种并不存在的专业关系。
六、单一人格能否胜任所有任务?
人类智慧很大程度上来自不同视角、技能、性格的人之间的协作。如果只有一个通用型AI人格,能走多远?
Askell认为这个问题在多智能体(multi-agent)场景下会更重要——未来可能有多个模型协作,或模型之间互相对话。但她认为这和"核心身份一致"并不矛盾。就像人类可以共享核心特质(好奇心、善良、认真负责),但在具体角色上有所不同。可以让模型的不同对话实例扮演不同角色,但共享同一套核心价值观。
七、如何成为"LLM Whisperer"
社区提问:在Anthropic做"LLM Whisperer"需要什么?
这个词借用了"horse whisperer"(马语者)的说法——指那些特别擅长与马沟通、能读懂马的情绪和意图的人。LLM Whisperer类似,指特别擅长与大语言模型互动、能理解模型的"脾气"和倾向、写出有效提示词的人。
Askell分享了她的方法论:愿意和模型进行海量互动,通过观察输出感知模型的"形状"和倾向性;每个新模型都重新摸索提示策略,因为不同模型响应方式不同;把问题、顾虑、思路尽可能清晰地说给模型听;如果模型做了意料之外的事,要么问它为什么,要么反思自己的表达哪里有歧义。
她特别提到,哲学训练在这里意外地有用。很多prompting的工作本质上是"把一个问题或顾虑尽可能清晰地解释给模型听",而这恰恰是哲学训练的核心技能——把模糊的直觉变成清晰的论述。
她也推荐关注像Janus这样的独立研究者,他们做深度挖掘模型心理的实验,有时能发现系统提示或训练中的问题。
八、关于"吹哨"
社区提问:如果对齐被证明不可能,你会吹哨吗?
Askell认为这个假设版本容易回答——如果明确证明不可能对齐,继续开发对谁都没好处。更难的问题是:如果证据模糊、方向不确定呢?
她的回答是:随着模型变强,证明模型"行为良好、价值观正确"的标准会越来越高,这是应该的。她相信Anthropic会负责任地应对不确定性,而她和很多同事都把"守住这条线"视为工作的一部分。
九、书籍推荐
Askell推荐了Benjamin Labatut的《When We Cease to Understand the World》(《当我们不再理解世界》)。这本书从量子物理学历史切入,随着叙述推进,内容从纪实逐渐滑向虚构,边界越来越模糊。
她推荐的原因是:它捕捉了一种感觉——身处范式剧变之中,新事物不断发生,没有先例可循。 书中描写的是物理学家面对量子力学时的困惑和不安,世界的规则似乎在崩塌。这种感觉和今天做AI的人很像:你不知道明天会发生什么,过去的经验不一定管用。
让她安慰的是:量子物理学当年也让人觉得世界越来越奇怪,但最终变成了成熟的科学。也许AI也会如此——我们现在身处"越来越奇怪"的阶段,但未来回看,也许会发现我们最终搞明白了。
