华盛顿大学和普林斯顿大学的一项研究,可以从大语言模型中检测预训练数据。可以用来检测是不是用了有版权的书籍来训练大模型。作者还在huggingface直接搭了个演示环境直接检测一段文字是否在text-davinci-003模型的预训练数据里。
地址:github.com/swj0419/detect-pretrain-code
发布于 山东
华盛顿大学和普林斯顿大学的一项研究,可以从大语言模型中检测预训练数据。可以用来检测是不是用了有版权的书籍来训练大模型。作者还在huggingface直接搭了个演示环境直接检测一段文字是否在text-davinci-003模型的预训练数据里。
地址:github.com/swj0419/detect-pretrain-code