很多人在处理PDF时习惯无差别做OCR,其实没必要。有个开源小工具叫pdf-inspector,做的事很简单:先帮你判断PDF到底是什么类型。
如果是Word导出那种正常文字版,它直接本地提取,几百毫秒就出结果。只有碰到扫描图片版,它才会交给OCR服务。等于给每个PDF先做一次智能分拣,跳过不必要的OCR环节,省掉一笔算力和时间成本。做文档解析、知识库搭建、RAG数据预处理的时候,这个判断步骤能帮上大忙。
链接:github.com/firecrawl/pdf-inspector
#科技先锋官# #ai创造营#
发布于 广东
