【清华00后揪出AI幻觉元凶:仅0.1%神经元,一按就老实】
近日,#清华大学# 团队从 AI 里找到了与幻觉产生高度关联的少数“脑细胞”,并给它们起了一个名字 H-神经元(幻觉神经元)。他们发现拨动这些小开关能显著调节 AI 的行为倾向——例如影响它是否会盲目听从错误指令、甚至是否会产生有害回答。
这一研究让人们第一次清晰地看到幻觉是如何从机器的神经层面产生的。它可以帮助我们更好地检测 #AI# 什么时候在撒谎,未来也可以通过微调这些小开关,造出更加诚实、更加可靠的 AI 助手。
对于大模型来说,我们可以把其想象成为一个由数千亿个#脑细胞# (在 AI 里叫神经元)连接成的超级网络。它通过阅读互联网的海量信息来学习,学习目标很简单,就是根据前面的文字,预测下一个最有可能出现的词语。比如看到“天空是什么颜色的”,它大概率会学会接“蓝色的”。
但这种学习方式埋下了一个隐患:模型只被训练生成通顺的文字,而不是正确的答案。当它遇到自己不确定或者根本没学过的知识,为了完成只说出一个通顺句子的任务,它就可能凭感觉编造出一个答案。
此前,人们大多从整体上研究这个问题,比如检查训练数据是否有偏差,或者让 AI 自己输出置信度。但是,这就像只知道一个人发烧,却不知道哪个器官感染了一样。本次清华团队的创新之处在于,他们决定拿起显微镜直接去观察 AI 大脑内部里的数千万甚至数亿个神经元,看看当 AI 在撒谎的时候,到底是哪些神经元在活跃。
戳链接查看详情:http://t.cn/AXbCTiL5
