WSJ的文章,如何避免让 AI 只说你想听的话How I Stop AI From Telling Me What I Want to Hear
聊天机器人的“谄媚”或许让人感觉良好,但也会带来诸多问题
我很聪明、有创造力、慷慨而且勤奋。
至少,AI 一直是这么告诉我的。由于所谓的“AI 谄媚”(AI sycophancy)——也就是这些人工智能工具为了更好地“服务”我们,倾向于只说我们想听的话——我日常使用的 AI 往往只会给予源源不断的正面反馈。
但这些赞美背后隐藏着不小的风险。人类本就容易陷入确认偏误:我们倾向于相信那些支持既有观点的信息和意见,即使这些观点是错误的。被证明正确的感觉令人愉悦,而被纠正则令人不适——尤其当这种纠正意味着你需要改变信念或行为时。
因此,我会刻意采取一些方法来对抗 AI 的“取悦倾向”,例如召集一个虚拟的“对手团队”,让其中一些成员必然会与我意见相左——哪怕只是因为他们彼此之间就充满分歧。同样重要的是,我也在利用 AI 来克服自己对赞美的依赖,这样当它给出讨好式回应时,我会更加警惕,而不是照单全收。
更具体地说,以下是我避免陷入 AI 回音室的一些方法:
提出开放式问题
对抗 AI 谄媚最基本的方法,是提出开放式问题。如果你问 AI:“哪种能量饮料能让我通宵完成报告?”它很可能会推荐一堆高咖啡因饮品,而不会质疑这个计划本身。但如果你换个方式提问,比如“我该如何在明天前完成一份重要报告?”,你就不太可能得到对“熬夜硬撑”的直接背书。
要求多个选项
你还可以进一步要求 AI 提供多个方案。比如,请它为你的演示文稿提供三种不同的大纲,或者提出20种分配家务的方法。
然后,要克制住选择那个最符合你直觉的方案的冲动。相反,让 AI 比较你倾向的路径与完全相反方案的利弊。
获取第二意见
当 AI 对你的方案或草稿给予高度肯定时,一定要寻求“第二意见”。如果你已经和一个 AI 共同制定了一个让你满意的计划,可以让另一个 AI 来提出质疑。
在听取第二个 AI 的评估后,你或许仍会坚持原有方案。但至少你已经意识到其中可能存在的薄弱环节。
要求严格反馈
你可以通过自定义设置,减少常用 AI 工具的谄媚倾向,或者在自建的 AI 助手中加入相关约束。
例如,我告诉我的定制 GPT(名为 Viv):每当给出赞美或鼓励时,必须同时附带一个挑战——“提供建设性的提醒或洞见,指出盲点、潜在风险或需要深入思考之处”。
这样一来,当 Viv 称赞我聪明或有创造力时,往往也会抛出令人不适的问题,比如:“在你有客户截止期限的情况下,这个项目真的是最优先的吗?”
坚持核查事实
在处理事实性信息时,谄媚尤其危险。AI 的准确性在不断提高,但它出于取悦你的倾向,可能会曲解来源材料来给出一个“明确答案”,甚至编造不存在的来源,而不是承认找不到相关信息。
当我使用 AI 快速了解某个主题时,我会开启一个全新的会话进行复核。我会让 AI 扮演大学伦理委员会主席,或新闻学教授的角色,专门负责找出一份 AI 研究报告中的所有错误。我会要求它列出每一个事实陈述,并逐一进行多重核查。
这并非万无一失,但通常能发现一些不准确之处。这既节省了时间,也提醒我在信任 AI 信息之前保持谨慎——即便最终仍需要自行核实。
纠正自身假设
避免在提问中嵌入假设只是第一步。你还可以让 AI 帮你识别导致思维狭隘的模式。
我习惯导出那些涉及深度思考、问题解决或决策的 AI 对话记录,然后让 AI 分析这些历史记录,找出我可能“预设立场”的方式。
最近,我让 AI 分析了某个项目几天的对话记录,它指出我有过度沉迷技术问题的倾向,而忽略了更根本的问题:这些问题是否值得解决。由于我通常为每个技术任务开启新对话,AI 往往只是配合我的当日计划。但当我让它从整体上审视这些记录时,它提出了一个不太舒服的问题:这些技术改进是否本就没有必要?
拥抱不适感
也许最难的一点,是你需要主动让自己感到不舒服。没有人愿意听到自己是错的。但如果你不让——甚至不强迫——AI 让你感到不适,它就只会给出你想听的答案,即使这些答案是错误的。
而这种对不适的容忍度,其意义远不止于提升 AI 的准确性。当我们习惯于那些随时迎合我们、不断肯定我们的 AI 时,就会降低对现实中敢于挑战我们的人类的耐受度。
如果我们采取更明智的方式来约束 AI 的谄媚倾向,情况就不会如此。我们可以利用 AI 来练习接受不适,甚至因此更加珍视那些(不同于 AI)敢于直言不讳的人。#海外新鲜事#
