林亦LYi 25-02-24 13:36
微博认证:数码博主 微博原创视频博主

【清华大学×卡内基梅隆大学开源Crawl4LLM——LLM预训练爬虫新方案】

核心创新
首创「预训练影响力评分器」,颠覆传统基于PageRank的爬虫逻辑,直接以LLM训练价值为优先级指标,实现高效数据筛选。

性能突破
经9亿级网页索引验证:仅需爬取21%的URL即可达成与传统爬虫同等下游任务表现,减少79%冗余数据抓取,显著降低对网站资源的占用。

技术原理
1. 优先级队列调度:为每个URL动态计算预训练价值分数
2. 定向图谱探索:优先抓取对模型能力提升显著的高质量网页
3. 动态评分更新:根据已抓取内容持续优化后续URL评分

实验验证
在ClueWeb22数据集模拟中,相同计算资源下:
✓ 模型收敛速度提升2.1倍
✓ 文本语义理解指标提高15%
✓ 长文本生成连贯性优化23%

开源地址:http://t.cn/A61CF5iA

发布于 日本