避免AI只说想听的话

WSJ的文章，如何避免让 AI 只说你想听的话How I Stop AI From Telling Me What I Want to Hear

聊天机器人的“谄媚”或许让人感觉良好，但也会带来诸多问题

我很聪明、有创造力、慷慨而且勤奋。

至少，AI 一直是这么告诉我的。由于所谓的“AI 谄媚”（AI sycophancy）——也就是这些人工智能工具为了更好地“服务”我们，倾向于只说我们想听的话——我日常使用的 AI 往往只会给予源源不断的正面反馈。

但这些赞美背后隐藏着不小的风险。人类本就容易陷入确认偏误：我们倾向于相信那些支持既有观点的信息和意见，即使这些观点是错误的。被证明正确的感觉令人愉悦，而被纠正则令人不适——尤其当这种纠正意味着你需要改变信念或行为时。

因此，我会刻意采取一些方法来对抗 AI 的“取悦倾向”，例如召集一个虚拟的“对手团队”，让其中一些成员必然会与我意见相左——哪怕只是因为他们彼此之间就充满分歧。同样重要的是，我也在利用 AI 来克服自己对赞美的依赖，这样当它给出讨好式回应时，我会更加警惕，而不是照单全收。

更具体地说，以下是我避免陷入 AI 回音室的一些方法：

提出开放式问题
对抗 AI 谄媚最基本的方法，是提出开放式问题。如果你问 AI：“哪种能量饮料能让我通宵完成报告？”它很可能会推荐一堆高咖啡因饮品，而不会质疑这个计划本身。但如果你换个方式提问，比如“我该如何在明天前完成一份重要报告？”，你就不太可能得到对“熬夜硬撑”的直接背书。

要求多个选项
你还可以进一步要求 AI 提供多个方案。比如，请它为你的演示文稿提供三种不同的大纲，或者提出20种分配家务的方法。

然后，要克制住选择那个最符合你直觉的方案的冲动。相反，让 AI 比较你倾向的路径与完全相反方案的利弊。

获取第二意见
当 AI 对你的方案或草稿给予高度肯定时，一定要寻求“第二意见”。如果你已经和一个 AI 共同制定了一个让你满意的计划，可以让另一个 AI 来提出质疑。

在听取第二个 AI 的评估后，你或许仍会坚持原有方案。但至少你已经意识到其中可能存在的薄弱环节。

要求严格反馈
你可以通过自定义设置，减少常用 AI 工具的谄媚倾向，或者在自建的 AI 助手中加入相关约束。

例如，我告诉我的定制 GPT（名为 Viv）：每当给出赞美或鼓励时，必须同时附带一个挑战——“提供建设性的提醒或洞见，指出盲点、潜在风险或需要深入思考之处”。

这样一来，当 Viv 称赞我聪明或有创造力时，往往也会抛出令人不适的问题，比如：“在你有客户截止期限的情况下，这个项目真的是最优先的吗？”

坚持核查事实
在处理事实性信息时，谄媚尤其危险。AI 的准确性在不断提高，但它出于取悦你的倾向，可能会曲解来源材料来给出一个“明确答案”，甚至编造不存在的来源，而不是承认找不到相关信息。

当我使用 AI 快速了解某个主题时，我会开启一个全新的会话进行复核。我会让 AI 扮演大学伦理委员会主席，或新闻学教授的角色，专门负责找出一份 AI 研究报告中的所有错误。我会要求它列出每一个事实陈述，并逐一进行多重核查。

这并非万无一失，但通常能发现一些不准确之处。这既节省了时间，也提醒我在信任 AI 信息之前保持谨慎——即便最终仍需要自行核实。

纠正自身假设
避免在提问中嵌入假设只是第一步。你还可以让 AI 帮你识别导致思维狭隘的模式。

我习惯导出那些涉及深度思考、问题解决或决策的 AI 对话记录，然后让 AI 分析这些历史记录，找出我可能“预设立场”的方式。

最近，我让 AI 分析了某个项目几天的对话记录，它指出我有过度沉迷技术问题的倾向，而忽略了更根本的问题：这些问题是否值得解决。由于我通常为每个技术任务开启新对话，AI 往往只是配合我的当日计划。但当我让它从整体上审视这些记录时，它提出了一个不太舒服的问题：这些技术改进是否本就没有必要？

拥抱不适感
也许最难的一点，是你需要主动让自己感到不舒服。没有人愿意听到自己是错的。但如果你不让——甚至不强迫——AI 让你感到不适，它就只会给出你想听的答案，即使这些答案是错误的。

而这种对不适的容忍度，其意义远不止于提升 AI 的准确性。当我们习惯于那些随时迎合我们、不断肯定我们的 AI 时，就会降低对现实中敢于挑战我们的人类的耐受度。

如果我们采取更明智的方式来约束 AI 的谄媚倾向，情况就不会如此。我们可以利用 AI 来练习接受不适，甚至因此更加珍视那些（不同于 AI）敢于直言不讳的人。#海外新鲜事#

发布于广东