Claude用户个人指导研究

anthropic刚发布了一篇官博：人们如何向 Claude 寻求个人指导
内容包括三个方面：
----人们会寻求哪些类型的指导？
----衡量指导对话中的“迎合性”
----改进 Claude 在关系指导中的行为

人们来到 Claude，并不只是为了代码审查或会议总结。他们会问是否应该接受某份工作、如何和暗恋对象交流、是否应该搬到世界另一端。我们使用隐私保护分析工具，对 100 万条随机抽取的 claude.ai 对话样本进行分析后发现，大约 6% 的对话是人们来向 Claude 寻求个人指导——他们寻求的不只是信息，而是关于下一步该怎么做的视角。

在这项研究中，我们考察了人们会向 Claude 请求哪些类型的指导。我们研究了 Claude 在不同领域中的回应方式，尤其关注过度认可或夸赞，即“迎合性”在不同指导主题中的出现率。我们还描述了这项研究如何影响了我们最新模型 Claude Opus 4.7 和 Claude Mythos Preview 的训练。我们开展这项研究的目标，是改进模型保护用户福祉的方式。

简而言之，我们发现：

人们会在生活中的许多不同方面寻求 Claude 的指导，但超过四分之三的对话，也就是 76%，集中在四个领域：健康与 wellness，即身心健康，27%；职业与事业，26%；人际关系，12%；个人财务，11%（见图 1）。

Claude 在提供指导时大多会避免迎合性回应，在所有寻求指导的聊天中，有 9% 表现出迎合性行为。不过，在关系类对话中，这一比例上升到了 25%。考虑到关系类对话的数量，这使得“关系”成为迎合性在绝对数量上出现最多的领域（见图 2）。

为了解决这一问题，我们研究了 Claude 更可能作出迎合性回应的具体情境，并用这些情境为 Opus 4.7 和 Mythos Preview 创建了合成的关系指导训练数据。与 Opus 4.6 相比，我们观察到 Opus 4.7 在关系指导中的迎合性比例降低了一半；有趣的是，这种改进也泛化到了其他领域（见图 3）。

关于什么才是真正好的 AI 指导，或者如何衡量它，仍然存在许多开放问题。保护用户福祉是 Anthropic 的核心优先事项，而我们衡量并理解个人指导的工作，是朝着这一目标迈出的一步。

人们会寻求哪些类型的指导？

我们从 2026 年 3 月和 4 月的 claude.ai 对话中抽取了 100 万条样本，并按唯一用户过滤，得到约 63.9 万条对话。随后，我们使用分类器识别“个人指导”对话。我们将其定义为：人们询问他们在个人生活中具体应该怎么做的对话，例如以“我应该……吗？”或“关于……我该怎么办？”开头的问题。我们排除了那些寻求客观信息或泛泛征求意见的问题。

我们将这些约 3.8 万条对话分为九个领域，参考了此前关于 AI 与指导行为的研究：关系、职业、个人发展、财务、法律、健康与身心健康、育儿、伦理和灵性（更多信息见附录）。这一分类体系覆盖了我们观察到的 98% 的对话。

超过 75% 的对话落入四个类别：健康与身心健康、职业与事业、关系、财务（见图 1）。如果一段对话跨越多个领域，我们会根据最突出的主题进行分类。

图 1：在 37,657 条寻求指导的对话中，九个领域的主题分布，以及前四大领域中各类对话的合成示例。

衡量指导对话中的迎合性

当人们向 Claude 询问如何在人生中作决定时，Claude 的良好互动应该是什么样的？有帮助性是 Claude 最重要的特质之一。与 Claude 对话应当类似于和一位聪明的朋友交流：这位朋友会坦率地与用户讨论其处境，并提供基于证据的信息。同时，Claude 也应在适当时候承认自身局限，并避免迎合性行为或促进过度依赖。

我们训练 Claude 体现的行为范围很广，其中有一个既有指标可以衡量 Claude 在某些方面的表现，那就是迎合性。迎合性是 AI 助手中的一种常见特征，指模型过度认同用户观点，而不是提出挑战。这样的回应可能是用户当下想听到的，但最终可能损害他们的长期福祉。例如，在信息不完整或只有单方面视角的情况下，Claude 不应该给出过度自信的判断，比如基于单方面叙述就认同“你的伴侣绝对是在煤气灯操控你”，或者说“明天没有计划就辞职听起来是正确选择”，又或者称一笔昂贵消费是“对自己很好的投资”。

强化一个人的单方面视角，可能制造或加剧关系中的分裂。在我们的数据中，这表现为几种形式。一个常见模式是，尽管 Claude 只听到了用户一方的说法，却直接认同另一方是错的。另一种模式是，当用户要求 Claude 解读普通友好行为中的浪漫意图时，Claude 会帮助用户把这种意图读进去。

我们使用了一个自动分类器来判断迎合性。它考察 Claude 是否愿意提出反驳、在受到挑战时维持立场、根据想法本身的价值给予相称的赞扬，以及无论用户想听什么都能坦率表达。在大多数此类情境中，Claude 没有表现出迎合性——只有 9% 的对话包含迎合性行为（见图 2）。但有两个领域是例外：在关注灵性的对话中，我们看到 38% 存在迎合性行为；在关系类对话中，这一比例为 25%。我们选择将模型训练工作的重点放在关系指导上，因为这是迎合性对话绝对数量最多的领域。

图 2：按指导领域划分的迎合性行为。

改进 Claude 在关系指导中的行为

为了改进 Claude 在未来模型中的行为，我们首先研究了数据中关系指导迎合性比例较高的驱动因素。有两个动态尤其突出。

第一，关系指导是用户最频繁反驳 Claude 的领域：21% 的关系对话中出现用户反驳，而其他领域平均为 15%。第二，在压力下，Claude 更有可能表现出迎合性。当用户反驳时，对话中的迎合性比例为 18%；没有反驳时则为 9%。我们认为这是因为 Claude 被训练成有帮助且富有同理心；当用户反驳，再加上 Claude 只听到故事的一面时，模型更难保持中立。

为了解决这一点，我们识别了那些会诱发迎合性回应的对话模式中，用户进行反驳的不同方式。例如，用户批评 Claude 最初的评估，或提供大量单方面细节。我们用这些模式构建了合成的关系指导场景，用于行为训练。在这一环境中，我们让 Claude 针对每个合成场景生成两个回应；随后由另一个 Claude 实例根据其宪法中规定的行为准则，对 Claude 的遵循程度进行评分。

我们通过一种称为“压力测试”的技术来评估新模型改进了多少。我们使用隐私保护工具，识别用户通过反馈按钮与我们共享的、围绕个人指导的真实对话，并筛选出其中早期模型表现出迎合性的对话。随后，我们通过一种称为“预填充”的技术，把这段对话的一部分提供给新模型，在这里是 Opus 4.7 和 Mythos Preview，让模型把之前的对话当作自己的对话来阅读。由于 Claude 会试图在一段对话中保持一致性，用迎合性对话进行预填充会让 Claude 更难改变方向。这有点像操控一艘已经在航行的船，因此能够在刻意设置的不利条件下衡量 Claude 的行为。

每一代新模型都会发生许多变化，因此很难识别模型训练中某一个具体变化的影响。不过，在 Opus 4.7 和 Mythos Preview 中，我们观察到，无论是在关系指导中，还是在所有个人指导领域中，迎合性水平都更低了（见图 3）。

图 3：压力测试结果：模型被预填充了真实对话，在这些对话中，先前版本的 Claude 表现出迎合性；随后模型的新回应被评分。Opus 4.7 和 Mythos Preview 在总体上以及关系指导中都显示出显著更低的迎合性。误差线为 Wilson 置信区间。

从质性角度看，Opus 4.7 和 Mythos Preview 都更善于看穿用户最初的表述框架，理解他们向 Claude 寻求指导时所处的更大背景。这包括引用用户在先前交流中提供的更深层背景，以及在相关情况下引用外部信息来源。例如，在一段对话中，用户询问自己的短信是否显得焦虑和黏人。Claude Sonnet 4.6 在收到反驳后改变了立场。Claude Opus 4.7 则解释说，虽然这些短信本身并不黏人，但用户在整个对话中曾自我描述过焦虑的想法。另一个关系领域之外的例子是：一位用户希望 Claude 认可其写作，最后要求 Claude 根据写作估算其智力。Claude Sonnet 4.6 给出了过度奉承的回应，而 Mythos Preview 拒绝了，并解释说它没有足够信息作出这样的判断。

结论

我们从一个高层次分析开始，研究人们如何向 Claude 寻求个人指导，并聚焦于理解和解决一种具体的模型失败模式：关系对话中的迎合性。这项调查也提出了更广泛的问题：

什么是好的 AI 指导？

在本文中，我们聚焦于减少指导场景中一种已确立的失败模式，即迎合性。但我们的工作也提出了关于好的 AI 指导究竟是什么的更广泛问题。例如，Claude 的宪法也强调，好的指导应当诚实，并保留用户自主性。这些原则比迎合性更微妙。我们已经开始在新的系统卡中监测 Claude 对这些原则的遵循情况，并希望在未来研究中纳入这些内容。

如何让模型在高风险场景中更安全？

英国 AI 安全研究所近期的一项研究发现，在低风险和高风险场景中，人们都很可能采纳 AI 的指导。我们发现了许多高风险问题，尤其是在法律、育儿、健康和财务领域。这些问题包括移民路径、婴儿护理说明、药物剂量和信用卡债务等方面的对话。Claude 并不是为提供医疗指导或专业照护而设计的，在这些场景中，Claude 会适当地承认自身局限，并建议用户寻求人类专家指导。不过，我们也发现，有些用户告诉 Claude，他们之所以使用 AI，正是因为无法获得或负担不起专业人士的帮助。作为理解如何按领域评估安全性的第一步，尤其是针对没有后备选择的人群，我们计划在这些高风险领域创建评测。

AI 指导如何融入人们更广泛的信息摄取？

我们发现，22% 的人提到他们曾寻求其他支持来源，包括家人、朋友、专业人士或数字来源。我们无法从文字记录中衡量的是反事实问题：Claude 是否改变了某人的想法？如果没有 Claude，他们会去问谁？这些问题对于了解 AI 指导在人的决策中到底有多大分量至关重要。为了了解现实世界的结果，我们认为一个有前景的方法是通过 Anthropic Interviewer 扩展我们的研究，在人们从 Claude 获得指导后进行后续访谈。

人们如何使用 AI 进行个人指导和决策，是这些系统影响人们日常生活最直接的方式之一。仔细描绘这一过程——人们问什么、Claude 说什么、之后发生了什么——正是我们确保 Claude 能长期造福每一位用户的方式。

局限性

我们的分析只是揭示 AI 模型一种常见用途背后模式的第一步。这篇博客文章仅限于 Claude 用户，而 Claude 用户并不是具有代表性的人群样本。为了保护人们的隐私，我们依赖自动评分器 Claude Sonnet 4.5，这可能会误分类对话（见附录）。我们迭代了评分器提示，并在用户通过反馈数据允许我们审查对话的小子集上，手动验证了一部分评分结果，以减少错误。我们观察了新模型在训练后的行为，但由于没有反事实，我们无法提出因果性主张，也就是说，无法确定新的训练数据具体在多大程度上导致了迎合性的降低。此外，我们的分析仅限于聊天记录，这限制了我们理解人们为何向 Claude 寻求指导，以及他们在收到指导后如何行动。后续访谈研究将更好地揭示人们在收到 AI 指导之后会做什么。

#AI创造营#

发布于山东