【清华大学×卡内基梅隆大学开源Crawl4LLM——LLM预训练爬虫新方案】核心创新首创「预训练影响力评分器」，颠覆传统基于PageRank的爬虫逻辑，直接以LLM训练价值为优先级指标，实现高效数据筛选。性能突破经9亿级网页索引验证：仅需爬取21%的URL即可达成与传统爬虫同等下游任务表现，减少7

【清华大学×卡内基梅隆大学开源Crawl4LLM——LLM预训练爬虫新方案】

核心创新
首创「预训练影响力评分器」，颠覆传统基于PageRank的爬虫逻辑，直接以LLM训练价值为优先级指标，实现高效数据筛选。

性能突破
经9亿级网页索引验证：仅需爬取21%的URL即可达成与传统爬虫同等下游任务表现，减少79%冗余数据抓取，显著降低对网站资源的占用。

技术原理
1. 优先级队列调度：为每个URL动态计算预训练价值分数
2. 定向图谱探索：优先抓取对模型能力提升显著的高质量网页
3. 动态评分更新：根据已抓取内容持续优化后续URL评分

实验验证
在ClueWeb22数据集模拟中，相同计算资源下：
✓ 模型收敛速度提升2.1倍
✓ 文本语义理解指标提高15%
✓ 长文本生成连贯性优化23%

开源地址：http://t.cn/A61CF5iA

发布于日本