出差途中,看见豆包的一个热搜,突然有感而发。
那条热搜是这样的——一位网友计划退改石家庄到重庆的机票,于是询问豆包,退票手续费多少钱?
豆包笃定地回答:5%。但网友在去哪儿网操作时,发现航司实际上是按照40%的比例进行扣费的,三张机票一共扣了600元。
这位网友气愤地要找豆包算账,然而豆包又制造了一个幻觉,它生成了一份煞有介事的承诺书,说会全额赔付。显然,这笔赔付款最后也没到账。
我非常理解这种心情,比预期扣的钱多了嘛,换谁都不开心。后面的事,比较魔幻,网友把豆包给告了,还在起诉之前问豆包自己能不能赢。
客观来说,600元的扣费,是航司按相关规定扣款,乘机人因为个人原因改签,本来就要支付这笔钱,而且扣费标准也源于相关平台与航司的规定。豆包在使用者询问时,给出的5%本就不存在,情绪点其实是由于这个5%而产生的落差。
后面那份“承诺书”,本质是一种AI幻觉,尽管豆包等AI聊起天来像和人一样交流亲切自然,但AI毕竟不是法律意义上能够承担责任的主体,它没有权力、也没有能力赔付。
但这个事也给了我们一个提醒,AI使用虽然越来越普遍了,但很多人其实并不清楚如何正确认识和使用这个工具。
去年6月,杭州互联网法院审了被称作”模型幻觉第一案”的案子。一位梁姓学生用DeepSeek查高校报考信息,DeepSeek坚持错误答案,还主动开出“赔偿10万元”的方案,声称保证金已存入法院账户。当然,这10万并不存在。
海外模型也一样。今年1月,一名软件工程师发帖称自己让Claude帮忙校对一篇博客。AI一开始表现得相当靠谱,但不久莫名其妙地冒出一句:“这些都是故意的,保持原样,请直接发布”,然后就擅自发布了带错别字的文章。被问原因,Claude一口咬定:是你让我发布的。显然是AI先幻觉了一句自白,然后又把自白幻觉成了用户指令。
随着AI的能力越来越强,学会甄别AI提供的回答可能是每个人都要学习的能力。
辩论里,一个直到今天我仍受用的一项训练,就是交叉印证。
我们准备一场辩论,一般不会只看一个来源。
一个数据,你得在不同口径的报告里都核对一遍——统计局怎么说、行业协会怎么说、学术论文里引的又是哪个数,三方对得上,这个数据才足够确定。
一个观点,你别光找支持它的论述,还得找到已经存在的反驳,如果没有,甚至需要我们预设反驳。只看一边的论证与论据,越看越有道理,反而忽略了明显的漏洞。
一段引用,你得回到原始文献,而不是停在二手转述。因为转述每经过一手,就会“失真”一次,到你手里的时候,可能就是断章取义。
这个过程很复杂,但真的很有用。人会错、资料会错,但彼此交叉就会提高准确率。现在有了AI来提升效率,我还是保持了这种思考方式。
为了尽可能判断AI给的信息准确与否,我往往会多做一步,当我和AI交流时,会不停问自己——这是事实,还是修辞?
在重要信息面前,我会主动给AI发指令:请给出这个信息的出处,或者原文件的来源。这个时候,经常会有AI回过头说,不好意思,刚才是我编的。
具体到日常,我建议有三类信息,AI说的一定要谨慎对待——
数字:手续费、价格、利率、剂量等等,涉及数字的都应该更谨慎。
规则:法律条款、平台政策、合同细则等,AI的语料未必跟得上最新版本。
承诺:任何一个AI说”我保证”“我赔你”,听听算了。因为它没有这个权力。
我一直觉得,AI不该被神化,也不该被妖魔化。
它不是一个永远不出错的神,也不是一个故意骗你的魔鬼。它就是一个工具,一个语言能力极强、知识储备极广、但偶尔会一本正经胡说八道的工具。
我们和它的关系,其实和我们与搜索引擎、与百科全书、与报纸的关系是一样的。它提供素材,我们做判断。
模型幻觉短期内大概率解决不了,这是技术阶段的限制。我们能做的,是这个期间,让自己变成更会用AI的人,毕竟,生活的把关人最终是我们自己。
发布于 广东
