爱可可-爱生活 25-02-21 07:52
微博认证:AI博主 2025微博新锐新知博主

【[111星]Crawl4LLM:高效的网络爬取框架,旨在解决当前 LLM 预训练数据爬取效率低下的问题。CRAW4LLM 通过优先爬取对 LLM 预训练更有影响力的网页,显著提升了数据质量和爬取效率,并减少了不必要的网络资源消耗。亮点:1. 高效筛选有价值文档,提升数据质量;2. 支持多种评分方法,灵活定制爬取策略;3. 配置简单,轻松上手】
'Crawl4LLM: Efficient Web Crawling for LLM Pretraining'
GitHub: github.com/cxcscmu/Crawl4LLM
#数据爬取##LLM预训练##高效爬虫##AI创造营#

发布于 北京