Infini-gram项目效率获赞

最近发现一个比较有意思的项目Infini-gram mini http://t.cn/AXLJKJj6
做的事情很“简单” 实现TB级文本语料的字符串检索支持次数统计或文档检索
检索复杂度可以做到O(查询长度*字符熵)，几乎是极限了。而且索引的创建也比较可行，用99天可以处理83TB的语料，最终的索引大小只有原数据的44%。
用Demo测试了一下，搜索效率很高，几秒就能完成。
这个项目主要是用来审计大模型数据污染的。比如老无线电题库早就被CC爬了好多遍了，不知道新题库能挺多久。
另外这个项目也可以用来审计公开数据集种的隐私威胁。用公司名搜了一下，发现上海望乘居然比北京福托还要多hhhh
顺便验证了一下http://t.cn/AXPGYTQx 他们用理论估算的是2.6倍，语料库里实际大概2.7倍，看来原文这套理论真是很准了[跪了]
这篇论文还拿了今年EMNLP的最佳论文，真是实至名归了 http://t.cn/AXLJKJjX

发布于中国香港