张铭PKUCS
25-03-12 13:45 微博认证:北京大学计算机系 张铭教授

我们Nature子刊论文拿到了当月的编辑推荐,编辑写了一整页来介绍该文。http://t.cn/A6BqEyac

Pick your AI poison, Nature Machine Intelligence volume 6, page1119 (2024)

区分真实事实和捏造事实长期以来一直是一项社会挑战。随着互联网上充斥着 AI 生成的内容,管理和保护高质量数据和信息的需求比以往任何时候都更加重要。
在生成式 AI 工具出现之前,结合自然语言处理的 AI 方法已经可用于从科学文献中提取知识。这些方法通常会构建可以搜索的大型知识图谱,例如,帮助查找特定疾病的药物和治疗方法。然而,正如杨等人在本期Nature Machine Intelligence 的一篇文章中所展示的那样,这种知识图谱会受到包含假论文的巨大影响。LLM 生成的论文通常很难与真正的论文区分开来,可能会产生不正确的联系——例如药物和疾病之间的联系——从而改变科学知识的格局。

杨等人使用现成的方法构建了一个生物医学知识图谱,其中包含近 400 万个来自已发表生物医学论文档案库 Medline 的真实摘要。然后,他们用促进药物和疾病之间错误联系的摘要“毒害”他们的结构,这些抽象最初由 ChatGPT 生成并由 BioBART 重写,BioBART 是一种适用于生物医学主题的生成语言模型。即使添加一个虚假摘要也会大大增加特定药物的突出性,从而用虚假和潜在有害的信息破坏知识图谱。杨等人还证明,与基于未经同行评审的预印本的知识图谱相比,由同行评审研究构建的知识图谱对中毒攻击更强大。他们认为,维护科学知识的完整性非常重要。

Junwei Yang, Hanwen Xu, Srbuhi Mirzoyan, Tong Chen, Zixuan Liu, Zequn Liu, Wei Ju, Luchen Liu, Zhiping Xiao, Ming Zhang, Sheng Wang. “Poisoning medical knowledge using large language models”. Nature Machine Intelligence, 2024(6), 1156–1168.

发布于 北京