华盛顿大学和普林斯顿大学的一项研究，可以从大语言模型中检测预训练数据。可以用来检测是不是用了有版权的书籍来训练大模型。作者还在huggingface直接搭了个演示环境直接检测一段文字是否在text-davinci-003模型的预训练数据里。地址：github.com/swj0419/detect-pretrain-code

华盛顿大学和普林斯顿大学的一项研究，可以从大语言模型中检测预训练数据。可以用来检测是不是用了有版权的书籍来训练大模型。作者还在huggingface直接搭了个演示环境直接检测一段文字是否在text-davinci-003模型的预训练数据里。
地址：github.com/swj0419/detect-pretrain-code

发布于山东