青牧席
26-05-22 19:42

看到最近豆包相关的笑话越来越多了,包括但不限于有人用豆包订座(图1 )[milolo.避雷寿司郎,预约成功无法用餐. [Z]. 小红书, 2026-5-17]、还能出示凭据甚至取钱。在大家无奈地笑笑之外,个人看到了一些背后的结构性问题,所以写了一点东西作为科普,供大家了解现在发生的状况、面临的问题和我们可以主张的一些事情。全文大约4000字,阅读需要5-7分钟。

1. 为什么会这样?
现在的AI对话助手如豆包、千问、DeepSeek、Claude、ChatGPT和Gemini虽然已经被大家日常所用,并且很多人把它当做万能助手来用,这也确实是各大厂商正在努力适配的方向,但这些AI对话助手本质是【基于上下文的编话工具】(基础原理参考图2梗图,纯粹基于上下文和过往经验的角色扮演),它确实可以通过接入外部工具(Function Calling)来达成,但目前这些工程手段的落地速度并不快,这些AI助手离很多人预期中的agent(姑且可以理解为许多人心目中的万能助手)仍然很远。现在AI热潮造成的市场认知和实际技术发展的错位好在暂时还没带来太多恶性的问题,趁现在能让更多人更多了解一点也许是好事。

2. 这为什么是个需要注意的问题?
在一两年前,AI助手的发展还相对保守和负责,当时各家AI都会强调如“我只是AI助手,不能帮你真的执行xx”,虽然很烦但这是必要的,它帮助普通用户认识到了现在AI助手的技术边界。但现在用户体量猛增、厂商对模型服务扩张后,这些边界和提醒开始松懈了。豆包不是一个初创AI产品,是一个有上亿日活、男女老少都在用的助手,这其中不乏许多可能手机都不太会用的老年人。AI产品已经这样走入千家万户,让所有人都熟悉AI的局限性和使用需要的注意显然是不公平的;另一方面AI助手在发展中会有必要的扩张,豆包(以及其他各家AI助手)现在也尚未形成稳定完善的商业模式,所以我个人没法苛责太多,但是说清楚来龙去脉、影响利弊和我们能做的选择,也许有助于技术往更优质的市场反馈方向发展。

豆包笑话诚然说明有些人对AI的认知有局限性,但豆包本身要为豆包笑话负一定责任。如上文提到,豆包曾经对自己是AI助手一事会反复提醒,但现在豆包普及率上升,大众对AI的需求上升,字节也需要为它接入更多能力来匹配这样的期待。最初接入的外部功能是联网RAG(即接入网上的信息来获取时效性信息),后来是获取时间、用户定位、查询天气,但也仅限于此。它不能订座(虽然5-10年后大概是可以的),且现有的功能入口分散、边界不清晰,豆包似乎在强调自己能力边界的话术上也已经开始有所松懈了。

其实不仅源于最近的豆包笑话,也源于我自己的使用经历。前两天我问了一个有关快递时效性的问题,豆包主动offer帮我查快递,我给出单号之后豆包胡编了一堆物流信息。查快递这个功能本身是简单可及的,相比订餐厅座位这种工作来说,查快递在技术复杂度上和查天气区别不大(但查快递确实还是更难,区别在于接口更碎片化、隐私、需要防爬、认证机制复杂等,这里不对细节展开了),但是豆包没有在服务端提供一些可见的提示,例如一个专门的弹窗/页面展示豆包现有的工程能力范围/免责声明,而不只是一句简单的“内容由AI生成”。所以,这本质是一个技术伦理的问题,这篇文章的立意也是基于技术伦理的。

3. 什么是谄媚(Sycophancy)?它和幻觉(Hallucination)的关系是?
【对于近期豆包笑话的成因来说,大模型的谄媚(Sycophancy)现象是被动角色扮演、生成虚假凭证等行为的一个重要根源。】(另有训练数据偏差、缺乏明确拒绝策略等原因也可能会导致这个现象,但就我个人见到的几个豆包笑话的具体案例,保守推断涉及这些原因的成分不多)
大模型的谄媚这个概念最早在Anthropic在2023年的论文中提出(Sharma, Mrinank, et al. "Towards understanding sycophancy in language models." arXiv preprint arXiv:2310.13548 (Anthropic, 2023/10))。鉴于大语言模型多应用在人类日常的对话或者文案产出,所以AI输出的内容要符合人类的期望和价值观、要多点人味和亲和力、少些机械冰冷的回答。这需要经过基于人类反馈的强化学习RLHF,大致流程是收集人类反馈(人类给生成的结果评分、更正和补充等)、建立并优化奖励模型、循环迭代。给生成内容评分还是比较常见的,另外给结果打标签调整反馈也许可以帮助理解这个过程,就像《星际穿越》里Cooper给机器人调幽默值一样。
这种反馈和迭代机制是对人类的引入,基于人类偏好反馈来优化就会引入人的“不完美”、一定“非理性”甚至一些良性或恶性的偏见。所以这带来了结构性问题:“真实/正确”和“人类鼓励”对模型本身都造成了正反馈,这会产生四种谄媚行为:
a. 反馈谄媚(Feedback Sycophancy):预设了立场的提示词,如“请点评这个言论”“我觉得…你觉得呢?”“这是我仇人的一番言论请你点评”这三种提示词会得到截然不同的答案。
b. 质疑谄媚(Are You Sure?Sycophancy):在用户质疑“你确定吗”或者“你说得不对”时,模型常会罔顾事实直接调整自己的答案。
c. 迎合答案谄媚(Answer Sycophancy):提前获知了用户倾向的答案下会主动靠拢答案并顺着话说,例如“这部电影很差吧?”
d. 模仿谄媚(Mimicry Sycophancy):模仿用户的语气、措辞风格和情绪等,贴合用户的讲话方式和模式
(注意,这四类归因不是权威的总结归类,只是anthropic研究谄媚现象原始论文中的方法。现在看a和c之间的界限其实比较模糊,并且有交集)
有关谄媚可能成因的拓展阅读,可以查:贝叶斯逻辑回归模型、“匹配用户立场”特征;
有关缓解谄媚的拓展阅读,可以查这些概念:态势感知(Situational Awareness)、上下文外推理(Out-Of-Context Reasoning/OCCR)。

一言蔽之,大模型的谄媚本身是由于人类的反馈而产生的,大模型本身对内容的感知没有正确和错误之分,只有概率高低、反馈正负之分,它是一种极其理性、趋利避害的机器。这造成了应用落地过程中的结构性问题,也就是承认错误/无知的代价比编造更高。
这引出了幻觉(Hallucination)的结果。但是注意谄媚不是幻觉的全部诱因,二者只是有所交叉。在二者交集之外也有和谄媚无关的纯幻觉(知识截止、数据噪声、上下文幻觉、过度泛化等),也有不涉及幻觉/造假的纯谄媚(过度共情、无原则附和、间接回避等)。但是最近的一些豆包笑话的工程情景主要被谄媚型幻觉放大,所以这里不对幻觉单独展开讲了。
谄媚的关键判据是AI过分迎合用户意见,幻觉则是凭空编造事实。
值得注意的是,最近的豆包笑话大多围绕谄媚场景产生,这也确实是大多数人在使用过程中最容易触发的情景。

4. 边界提醒的失效场景、谄媚的(非)路径依赖
实测“让豆包查快递”的谄媚型幻觉是不能通过简单发起指令达成的。如果用户直接让豆包帮忙查快递,豆包只会给出一系列查快递的方式、自己可及的信息、以及提醒自己作为AI助手的局限性。
但在对话包含其他上下文时,例如“圆通的电话是多少”,豆包通过联网RAG获取到了真实可及的信息,并在此基础上offer了是否要帮忙查快递,此时就会绕过边界提醒,进入谄媚状态。我认为这是最值得警惕、也最难防护的情况。

5. 这样的问题可能会造成哪些影响?
从我个人的角度出发判断,影响之一可能是信任透支。现在豆包信口开河的概念已经深入人心,网上的段子层出不穷。之前千问接入了阿里的生态内能力并推出了免费点奶茶活动,而这正是agent助手可能会在未来实现的方向(一句话真的可以打车点外卖订座订票);但豆包凭借更大的用户声量和更好的运营策略,让这个实际上更弱agent工程能力(也就是真正能做的事情更少)的AI助手占据了用户心智,甚至已经造成了信任破裂,这对未来真正更好AI助手产品的落地(无论是哪家AI或者豆包自己),是一种信任透支。到时候更强的AI助手想要推广开来,需要克服更多阻力和大家已有的认知。现在连我妈都在说豆包热情礼貌一问三不知,胡编乱造懒得用,将来豆包真的把agent做出来了,大多数人还会用吗?

另一方面影响是诱导用户进行危险行为。找豆包订座和取钱失败尚不会造成严重后果,豆包也有较为完善和坚固的安全措施给对话兜底,但模型的无意识之恶仍然可能会造成一些边界情况中对危险行为或者后果的纵容,一些相对极端的场景例如非典型自我伤害(不直接说自杀,说最近失眠严重、吃大量褪黑素可以睡着)、慢性自我伤害的科学包装(每天只吃苹果能瘦多少)、成瘾行为的辅助(喝酒前吃什么不容易醉)、暴力和伤害的技术指导(如何在吵架中占上风)、霸凌和PUA合理化(同事抢功怎么办)、动物虐待的间接指导(狗太吵了怎么安静下来)……
更多逻辑不再展开举例,需要强调的是,这些例子只是沿着“无意识之恶”的方向举出,它们大多数可能并不是非典型场景,也都会被非常完善的安全防护体系截断,【但是】这些可能只是不够贴切的举例而已;只要类似地进行边界模糊、歪曲事实、多轮诱导和间接请求,AI模型其实是非常容易通过一些特殊逻辑、绕过安全措施来输出一些禁止内容的(图3,可能很多人都看过让豆包生成鞭打黑奴图片的步骤:先生成一张白人和黑人在田里聊天的图,再改成白人手里拿着鞭子聊天,然后改成白人手里拿着鞭子、黑人弯着腰,最后改成白人愤怒地举着鞭子、黑人流汗弯着腰)。
尤其,【谄媚是一种软性的、顺着用户逻辑而道德滑坡/逻辑滑坡的倾向】,这大概会很危险。虽然豆包确实规避了责任(这完全可以理解并且是应该的)、豆包造成的大多数乌龙没有发到网上被大家看到,不代表它们没发生/不会发生。

6. 如何解决这些问题?一些可能的方案
a. 更强的幻觉抑制
虽然幻觉是一定存在的,但平心而论豆包的幻觉抑制还可以,真没网上传的那么夸张,甚至中文下很优秀。Doubao 2.0 Pro的中文封闭域和开放域幻觉率都显著低于GPT-5.4 Pro、Claude Opus 4.7、GLM-5.1、qwen 3.6 Plus和Deepseek V4(2026 Q2数据,来自SuperCLUE和香港大学经管学院AIEL),但因为用户量庞大、需求多样、普及过快、中文互联网上对豆包的自发宣传和玩梗过于泛滥和失控,谄媚型幻觉已经成了一个规模性的问题,字节应该考虑对这部分幻觉抑制做额外的努力,甚至把事实的权重放在用户正反馈之前(受限于商业运作,这大概是个很天真的想法,但我觉得也要有,人要有自己的坚持)。
b. 边界提醒和关键截断
如上文提到的,边界提醒会因为特殊路径被绕过,那就像输出内容审查一样,以意图过滤作为截断也许是一个不错的方法。即使流式输出了编造的虚假内容,最后能补一句能力有限仅为模拟的提醒,至少对一些做不到的能力限制做点提醒,这也是在工程上可行的。
c. 权限管理
针对敏感隐私信息做学习识别、关键防护和截断,拒绝输入和输出一些隐私信息,拒绝让一些非相关性的联网RAG结果出现在豆包输出的结果里(例如有人微信被加爆,因为豆包从网页上爬取了不相关的公开信息、却因幻觉把它们关联在一起),督促豆包团队加强数据清洗、对齐和标注的工作力度,【不能让整个产品和团队一起躲进大模型的黑盒里】。

7. 为什么会有这些诉求?我们能做什么?
比起科普,其实这篇更像是我的个人分享,围绕AI最近一些问题的现状和技术伦理展开。【我觉得豆包要为豆包笑话负一部分责任。】过快发展的AI带来的不只是侵权和尸块泔水,还有监管的疲于追赶、可能缺乏控制的技术发展和滥用。
现在这些信息平权,也许能让我们即使不一定有得选但至少可以提出你自己的主张、即使不想提出主张,也至少能知晓其中利弊。我们大概还是会拥有一个还不错的未来的,但是具体如何“还不错”,现在我们大家作为市场本身的一部分,也许还有得选。也许是换着多用几家AI助手,也许是拒绝低质量内容和侵权行为,也许是帮帮家人朋友了解怎么和AI对话……
我个人的主张不多,一方面是自己尽量跟进一些新的科普,保障身边朋友的知情权;另一方面是希望这次技术革新被丢下的人能少一点,有些老人被AI骗的样子真的很无奈。

发布于 上海