蚁工厂
23-11-23 19:33 微博认证:科技博主

华盛顿大学和普林斯顿大学的一项研究,可以从大语言模型中检测预训练数据。可以用来检测是不是用了有版权的书籍来训练大模型。作者还在huggingface直接搭了个演示环境直接检测一段文字是否在text-davinci-003模型的预训练数据里。
地址:github.com/swj0419/detect-pretrain-code ​

发布于 山东