最近发现一个比较有意思的项目Infini-gram mini http://t.cn/AXLJKJj6
做的事情很“简单” 实现TB级文本语料的字符串检索 支持次数统计或文档检索
检索复杂度可以做到O(查询长度*字符熵),几乎是极限了。而且索引的创建也比较可行,用99天可以处理83TB的语料,最终的索引大小只有原数据的44%。
用Demo测试了一下,搜索效率很高,几秒就能完成。
这个项目主要是用来审计大模型数据污染的。比如老无线电题库早就被CC爬了好多遍了,不知道新题库能挺多久。
另外这个项目也可以用来审计公开数据集种的隐私威胁。用公司名搜了一下,发现上海望乘居然比北京福托还要多hhhh
顺便验证了一下http://t.cn/AXPGYTQx 他们用理论估算的是2.6倍,语料库里实际大概2.7倍,看来原文这套理论真是很准了[跪了]
这篇论文还拿了今年EMNLP的最佳论文,真是实至名归了 http://t.cn/AXLJKJjX
发布于 中国香港
