心理学情报局 24-08-23 10:38

【你的论文被出版商偷偷卖给AI公司训练模型了吗?不用怀疑,已经卖了,而且价格不菲[允悲]】
学术出版商向部分投稿人收取稿件处理费、向部分作者收取版面费或开放通道费、向机构读者收取订阅费、向部分个人读者收取单篇阅读费,而今,他们正在想办法把手上的这些论文再卖一笔钱——AI模型公司想访问这些资源,必须交钱。

昨天出版的英国《自然》杂志刊登了一篇新闻报道,聚焦了这些做法带来的争议。

上个月,英国学术出版商Taylor & Francis与微软签署了一项1000万美元的协议,允许微软以改进人工智能系统为由,访问该出版商旗下的数据资源。对于心理学读者来说,该出版商旗下比较知名的杂志包括《教育心理学家》《教育心理学》《积极心理学杂志》《媒体心理学》《结构方程模型》等。

6月,美国学术出版商Wiley与一家未具名的公司达成合作,允许该公司将Wiley旗下的内容用于训练生成式AI模型。仅这一笔订单,就令Wiley赚取了2300万美元(约合1.6亿人民币)。对于心理学读者来说,该出版商旗下比较知名的杂志包括《人格杂志》《政治心理学》《儿童发展》《消费者心理学杂志》《应用心理学》《英国心理学杂志》等,也包括了与中国科学院心理学研究所合作的《PsyCh期刊》。

毫无疑问,大语言模型(例如ChatCPT等)是近年来的热点领域,部分人士认为其代表了社会发展的未来趋势。这些AI模型需要大量数据用于训练,以不断优化其向用户提供的回答。

学术论文可以说是AI模型垂涎的“金矿”。因为,比起从互联网上扒取到的真假难辨、废话居多的其它类型文本而言,学术论文包含了非常高的信息密度,并且以有条理的方式进行组织。由于学术出版的相对严肃性,其内容的可靠性也无疑高于网络文本的一般水平。

然而,学术出版商将论文资源售卖给AI公司的做法,仍然引起了一些担忧。担忧的声音主要有:

①尽管学术出版商可能会更新它们的投稿政策和协议,但直接售卖数据库访问权限的做法,无疑会涉及此前发表的、作者并未同意用于AI训练的作品。这些作者的权利无法得到保障。

②即便是新投稿的作品,单个作者也几乎不可能拥有权力,决定自己的作品是否用于AI训练。要么别投,要么就得接受格式条款。

③作者本人难以知道自己的作品是否被AI模型使用,读者也很难知道他们得到的内容来自哪篇学术著作。这使得衡量论文影响力和研究人员学术成就的当前体系,将受到挑战,因为,即便一篇论文实实在在地帮助到了其它研究者,无论是作者、还是读者都无法知晓这件事情。

④没有“后悔药”。该报道援引西雅图华盛顿大学人工智能研究人员Lucy Lu Wang的说法,她指出,一旦一篇论文已经被用于AI模型训练,那么,该模型就再也无法剔除该论文了。

但与此同时,也有许多声音为这种做法提供了支持或辩护:

①许多研究者非常乐于看到他们的作品可以被包含在大语言模型的训练数据中,尤其是考虑到这种做法可能可以使AI提供的答案更加准确可靠,这样做可以让他们的作品帮到许多人。

②学术出版商辩称,就算它们不向AI公司售卖访问权限,实际上AI公司很可能也使用了它们的内容。Wang坦言,任何可以在线阅读的东西,无论是否“开放”,都“很有可能”已经被AI模型纳入了。因此,出版商认为,他们正在做的决策不是“要不要允许AI访问它们的数据”,而是,在AI访问不可避免的情况下,能不能卖一笔好价钱。

③真的侵犯版权吗?文章也提供了一个相反的论点,大语言模型并没有真实地复制粘贴任何东西,它们只是从数据集中收集信息、分解信息,以此来生成新文本。如果司法界仍遵循既有的“抄袭”或“剽窃”判定方式,那么,AI生成文本被判定侵权的可能性究竟有多大,仍是悬而未决的问题。在这个模糊时期,AI公司甚至愿意向学术出版商交一笔“权限费”,出版商似乎很难有理由拒绝。

总体来看,文章揭示出学术出版商的矛盾心态。当他们寻求向AI公司收取费用时,他们倾向于强调,未经允许就抓取内容,属于侵犯版权的行为,需要交钱。然而,当他们处理与投稿人或作者的关系时,他们则倾向于暗示,售卖行为并不违背以往与作者签署的版权协议,不需要向作者额外支付费用。

从研究者的视角来看,令人沮丧的从来不是自己的作品被用于AI训练,实际上这是造福更多同行和公众的宝贵契机。但是,在此应用中,学术贡献的识别方式、作者与出版商的利益分配方式需要向更加公平的方向进一步完善。尤其是考虑到学术出版商几乎没有付出额外成本,就从这类交易中赚取了令人惊叹的巨额利润。

来源:Gibney, E. (2024). Has your paper been used to train an AI model? Almost certainly. Nature, 632, 715–716. doi: 10.1038/d41586-024-02599-9 http://t.cn/A6RbqIut http://t.cn/A6nD36eV

发布于 北京