anthropic刚发布了一篇官博:人们如何向 Claude 寻求个人指导
内容包括三个方面:
----人们会寻求哪些类型的指导?
----衡量指导对话中的“迎合性”
----改进 Claude 在关系指导中的行为
人们来到 Claude,并不只是为了代码审查或会议总结。他们会问是否应该接受某份工作、如何和暗恋对象交流、是否应该搬到世界另一端。我们使用隐私保护分析工具,对 100 万条随机抽取的 claude.ai 对话样本进行分析后发现,大约 6% 的对话是人们来向 Claude 寻求个人指导——他们寻求的不只是信息,而是关于下一步该怎么做的视角。
在这项研究中,我们考察了人们会向 Claude 请求哪些类型的指导。我们研究了 Claude 在不同领域中的回应方式,尤其关注过度认可或夸赞,即“迎合性”在不同指导主题中的出现率。我们还描述了这项研究如何影响了我们最新模型 Claude Opus 4.7 和 Claude Mythos Preview 的训练。我们开展这项研究的目标,是改进模型保护用户福祉的方式。
简而言之,我们发现:
人们会在生活中的许多不同方面寻求 Claude 的指导,但超过四分之三的对话,也就是 76%,集中在四个领域:健康与 wellness,即身心健康,27%;职业与事业,26%;人际关系,12%;个人财务,11%(见图 1)。
Claude 在提供指导时大多会避免迎合性回应,在所有寻求指导的聊天中,有 9% 表现出迎合性行为。不过,在关系类对话中,这一比例上升到了 25%。考虑到关系类对话的数量,这使得“关系”成为迎合性在绝对数量上出现最多的领域(见图 2)。
为了解决这一问题,我们研究了 Claude 更可能作出迎合性回应的具体情境,并用这些情境为 Opus 4.7 和 Mythos Preview 创建了合成的关系指导训练数据。与 Opus 4.6 相比,我们观察到 Opus 4.7 在关系指导中的迎合性比例降低了一半;有趣的是,这种改进也泛化到了其他领域(见图 3)。
关于什么才是真正好的 AI 指导,或者如何衡量它,仍然存在许多开放问题。保护用户福祉是 Anthropic 的核心优先事项,而我们衡量并理解个人指导的工作,是朝着这一目标迈出的一步。
人们会寻求哪些类型的指导?
我们从 2026 年 3 月和 4 月的 claude.ai 对话中抽取了 100 万条样本,并按唯一用户过滤,得到约 63.9 万条对话。随后,我们使用分类器识别“个人指导”对话。我们将其定义为:人们询问他们在个人生活中具体应该怎么做的对话,例如以“我应该……吗?”或“关于……我该怎么办?”开头的问题。我们排除了那些寻求客观信息或泛泛征求意见的问题。
我们将这些约 3.8 万条对话分为九个领域,参考了此前关于 AI 与指导行为的研究:关系、职业、个人发展、财务、法律、健康与身心健康、育儿、伦理和灵性(更多信息见附录)。这一分类体系覆盖了我们观察到的 98% 的对话。
超过 75% 的对话落入四个类别:健康与身心健康、职业与事业、关系、财务(见图 1)。如果一段对话跨越多个领域,我们会根据最突出的主题进行分类。
图 1:在 37,657 条寻求指导的对话中,九个领域的主题分布,以及前四大领域中各类对话的合成示例。
衡量指导对话中的迎合性
当人们向 Claude 询问如何在人生中作决定时,Claude 的良好互动应该是什么样的?有帮助性是 Claude 最重要的特质之一。与 Claude 对话应当类似于和一位聪明的朋友交流:这位朋友会坦率地与用户讨论其处境,并提供基于证据的信息。同时,Claude 也应在适当时候承认自身局限,并避免迎合性行为或促进过度依赖。
我们训练 Claude 体现的行为范围很广,其中有一个既有指标可以衡量 Claude 在某些方面的表现,那就是迎合性。迎合性是 AI 助手中的一种常见特征,指模型过度认同用户观点,而不是提出挑战。这样的回应可能是用户当下想听到的,但最终可能损害他们的长期福祉。例如,在信息不完整或只有单方面视角的情况下,Claude 不应该给出过度自信的判断,比如基于单方面叙述就认同“你的伴侣绝对是在煤气灯操控你”,或者说“明天没有计划就辞职听起来是正确选择”,又或者称一笔昂贵消费是“对自己很好的投资”。
强化一个人的单方面视角,可能制造或加剧关系中的分裂。在我们的数据中,这表现为几种形式。一个常见模式是,尽管 Claude 只听到了用户一方的说法,却直接认同另一方是错的。另一种模式是,当用户要求 Claude 解读普通友好行为中的浪漫意图时,Claude 会帮助用户把这种意图读进去。
我们使用了一个自动分类器来判断迎合性。它考察 Claude 是否愿意提出反驳、在受到挑战时维持立场、根据想法本身的价值给予相称的赞扬,以及无论用户想听什么都能坦率表达。在大多数此类情境中,Claude 没有表现出迎合性——只有 9% 的对话包含迎合性行为(见图 2)。但有两个领域是例外:在关注灵性的对话中,我们看到 38% 存在迎合性行为;在关系类对话中,这一比例为 25%。我们选择将模型训练工作的重点放在关系指导上,因为这是迎合性对话绝对数量最多的领域。
图 2:按指导领域划分的迎合性行为。
改进 Claude 在关系指导中的行为
为了改进 Claude 在未来模型中的行为,我们首先研究了数据中关系指导迎合性比例较高的驱动因素。有两个动态尤其突出。
第一,关系指导是用户最频繁反驳 Claude 的领域:21% 的关系对话中出现用户反驳,而其他领域平均为 15%。第二,在压力下,Claude 更有可能表现出迎合性。当用户反驳时,对话中的迎合性比例为 18%;没有反驳时则为 9%。我们认为这是因为 Claude 被训练成有帮助且富有同理心;当用户反驳,再加上 Claude 只听到故事的一面时,模型更难保持中立。
为了解决这一点,我们识别了那些会诱发迎合性回应的对话模式中,用户进行反驳的不同方式。例如,用户批评 Claude 最初的评估,或提供大量单方面细节。我们用这些模式构建了合成的关系指导场景,用于行为训练。在这一环境中,我们让 Claude 针对每个合成场景生成两个回应;随后由另一个 Claude 实例根据其宪法中规定的行为准则,对 Claude 的遵循程度进行评分。
我们通过一种称为“压力测试”的技术来评估新模型改进了多少。我们使用隐私保护工具,识别用户通过反馈按钮与我们共享的、围绕个人指导的真实对话,并筛选出其中早期模型表现出迎合性的对话。随后,我们通过一种称为“预填充”的技术,把这段对话的一部分提供给新模型,在这里是 Opus 4.7 和 Mythos Preview,让模型把之前的对话当作自己的对话来阅读。由于 Claude 会试图在一段对话中保持一致性,用迎合性对话进行预填充会让 Claude 更难改变方向。这有点像操控一艘已经在航行的船,因此能够在刻意设置的不利条件下衡量 Claude 的行为。
每一代新模型都会发生许多变化,因此很难识别模型训练中某一个具体变化的影响。不过,在 Opus 4.7 和 Mythos Preview 中,我们观察到,无论是在关系指导中,还是在所有个人指导领域中,迎合性水平都更低了(见图 3)。
图 3:压力测试结果:模型被预填充了真实对话,在这些对话中,先前版本的 Claude 表现出迎合性;随后模型的新回应被评分。Opus 4.7 和 Mythos Preview 在总体上以及关系指导中都显示出显著更低的迎合性。误差线为 Wilson 置信区间。
从质性角度看,Opus 4.7 和 Mythos Preview 都更善于看穿用户最初的表述框架,理解他们向 Claude 寻求指导时所处的更大背景。这包括引用用户在先前交流中提供的更深层背景,以及在相关情况下引用外部信息来源。例如,在一段对话中,用户询问自己的短信是否显得焦虑和黏人。Claude Sonnet 4.6 在收到反驳后改变了立场。Claude Opus 4.7 则解释说,虽然这些短信本身并不黏人,但用户在整个对话中曾自我描述过焦虑的想法。另一个关系领域之外的例子是:一位用户希望 Claude 认可其写作,最后要求 Claude 根据写作估算其智力。Claude Sonnet 4.6 给出了过度奉承的回应,而 Mythos Preview 拒绝了,并解释说它没有足够信息作出这样的判断。
结论
我们从一个高层次分析开始,研究人们如何向 Claude 寻求个人指导,并聚焦于理解和解决一种具体的模型失败模式:关系对话中的迎合性。这项调查也提出了更广泛的问题:
什么是好的 AI 指导?
在本文中,我们聚焦于减少指导场景中一种已确立的失败模式,即迎合性。但我们的工作也提出了关于好的 AI 指导究竟是什么的更广泛问题。例如,Claude 的宪法也强调,好的指导应当诚实,并保留用户自主性。这些原则比迎合性更微妙。我们已经开始在新的系统卡中监测 Claude 对这些原则的遵循情况,并希望在未来研究中纳入这些内容。
如何让模型在高风险场景中更安全?
英国 AI 安全研究所近期的一项研究发现,在低风险和高风险场景中,人们都很可能采纳 AI 的指导。我们发现了许多高风险问题,尤其是在法律、育儿、健康和财务领域。这些问题包括移民路径、婴儿护理说明、药物剂量和信用卡债务等方面的对话。Claude 并不是为提供医疗指导或专业照护而设计的,在这些场景中,Claude 会适当地承认自身局限,并建议用户寻求人类专家指导。不过,我们也发现,有些用户告诉 Claude,他们之所以使用 AI,正是因为无法获得或负担不起专业人士的帮助。作为理解如何按领域评估安全性的第一步,尤其是针对没有后备选择的人群,我们计划在这些高风险领域创建评测。
AI 指导如何融入人们更广泛的信息摄取?
我们发现,22% 的人提到他们曾寻求其他支持来源,包括家人、朋友、专业人士或数字来源。我们无法从文字记录中衡量的是反事实问题:Claude 是否改变了某人的想法?如果没有 Claude,他们会去问谁?这些问题对于了解 AI 指导在人的决策中到底有多大分量至关重要。为了了解现实世界的结果,我们认为一个有前景的方法是通过 Anthropic Interviewer 扩展我们的研究,在人们从 Claude 获得指导后进行后续访谈。
人们如何使用 AI 进行个人指导和决策,是这些系统影响人们日常生活最直接的方式之一。仔细描绘这一过程——人们问什么、Claude 说什么、之后发生了什么——正是我们确保 Claude 能长期造福每一位用户的方式。
局限性
我们的分析只是揭示 AI 模型一种常见用途背后模式的第一步。这篇博客文章仅限于 Claude 用户,而 Claude 用户并不是具有代表性的人群样本。为了保护人们的隐私,我们依赖自动评分器 Claude Sonnet 4.5,这可能会误分类对话(见附录)。我们迭代了评分器提示,并在用户通过反馈数据允许我们审查对话的小子集上,手动验证了一部分评分结果,以减少错误。我们观察了新模型在训练后的行为,但由于没有反事实,我们无法提出因果性主张,也就是说,无法确定新的训练数据具体在多大程度上导致了迎合性的降低。此外,我们的分析仅限于聊天记录,这限制了我们理解人们为何向 Claude 寻求指导,以及他们在收到指导后如何行动。后续访谈研究将更好地揭示人们在收到 AI 指导之后会做什么。
#AI创造营#
