预训练数据瓶颈已被突破?FinePDFs带来3万亿tokens全新文本资源,重新定义模型训练边界。
• FinePDFs 是迄今最大规模、完全来自PDF文档的开放许可文本语料库,包含3T tokens,原本藏于PDF中未被充分利用。
• 利用最新VLM/OCR技术,团队耗费大量GPU时长从网络PDF中提取文本,PDF文档平均长度远超网页,极适合长上下文预训练。
• 在当前SOTA数据基础上加入FinePDFs,显著提升模型性能,25% PDF+75%网页数据混合效果最佳,单独使用PDF数据仍建议配合其他数据源。
• 许可方面尊重原始文档授权,不额外施加限制,类似CommonCrawl策略,透明且可追溯。
• 该语料库为长期训练、提升模型理解深度和上下文利用率提供新的可能,推动预训练范式从单一网页文本向多样文档资源拓展。
• 详见数据集及技术细节👉 huggingface.co/datasets/HuggingFaceFW/finepdfs
FinePDFs揭示了预训练数据结构多元化的未来路径,提示我们数据的“死角”仍有巨大潜力等待挖掘。
#大规模预训练# #机器学习# #自然语言处理# #数据科学# #AI训练数据# #PDF数据#
发布于 北京
