【大模型里藏着"阴谋论者"?MIT找到了定位和操控它的方法】
如今,#ChatGPT# 、Claude 以及其他大语言模型(LLM)已积累了如此丰富的人类知识,早已超越了简单的问答工具,还能表达特定语气、人格、偏见和情绪等抽象概念。然而,这些模型究竟如何从所含知识中形成对抽象概念的表征,目前仍不甚明朗。
MIT 与#加州大学圣地亚哥分校# 的联合研究团队开发出一种方法,可检测大语言模型中是否隐藏着偏见、人格、情绪或其他抽象概念。该方法能够精准定位模型内部对特定概念进行编码的关联结构,进而对这些关联进行干预或“引导”,从而在模型生成的任意回答中强化或弱化相应概念。
研究团队验证了该方法能够快速发现并引导当今主流大型 LLM 中的 500 余个通用概念。例如,研究人员可以定位模型对“网络红人”和“阴谋论者”等人格特征,以及“恐婚”和“波士顿球迷”等立场的表征,并对这些表征进行调节,使模型生成的回答中相应概念得以强化或弱化。
在“阴谋论者”概念的验证实验中,团队成功在当前最大规模的视觉语言模型之一中定位了该概念的表征。增强这一表征后,当研究人员提示模型解释阿波罗 17 号拍摄的著名地球照片“蓝色弹珠”的来源时,模型生成的回答充满了阴谋论的语气和视角。
戳链接查看详情:http://t.cn/AXcogsJw
