MinerU让PDF变干净

把一份几十页的 PDF 直接丢给 AI 让它读、让它总结，结果它读出来的东西跟原文对不上，这种坑你大概率踩过。

最近老有人问我同一个问题：自己搭了个知识库，把一堆资料喂进去让 AI 答题，可它老答错、老胡说，到底哪儿出了问题。多半不是模型笨，是喂进去的资料本身就喂坏了。有个能把这一步做扎实的开源工具，叫 MinerU，值得讲讲。

先说为什么直接丢 PDF 会出乱。

PDF 在大模型眼里，基本就是一锅排好版的字。它不知道哪块是表格、哪块是正文、哪块是页眉页脚。所以一读，表格被拆得稀碎，公式变成乱码，多栏排版的文章顺序全读串了，连页码、水印都被当正文吞进去。这就像你把一摞散乱的复印纸塞给一个新来的助理，让他汇报重点——不是他不行，是你给的东西本身就没法读。

MinerU 干的就是中间这道整理活：把复杂文档（PDF、Office 文档、图片，甚至网页）转成干净的、适合喂给大模型读的 Markdown 或 JSON。做它的是一个叫 OpenDataLab 的团队。

它强在哪，我挑几条我自己用下来最在意的说。

一是表格和公式。表格它会还原成结构，不是揉成一团；公式直接转成 LaTeX，数学、论文这种重灾区终于能正常读了。二是阅读顺序。多栏的论文、排版花哨的文档，它能按人眼读的顺序排好，不会把左右两栏掺成一锅粥，还会自动把页眉、页脚、脚注、页码这些噪音去掉。第一次见它把页眉页脚自动剔干净那下，我愣了一下，这活以前我都是手动删的。

三是它认得多。背后是 VLM 加 OCR（光学字符识别）双引擎，号称能认109种语言，扫描件、手写也能识别。而且不只啃 PDF，docx、pptx、xlsx 这些 Office 文件也能直接解析。

这工具不是小打小闹。GitHub 上6万多颗 star，最近一直在更新，很活跃。一堆做 RAG（检索增强生成，说白了就是让 AI 答题前先翻一遍资料库）的框架都接了它，像 LangChain、Dify、RAGFlow 这些。它最早其实是给大模型做预训练准备数据时顺手做出来的，这种从一线需求里长出来的工具，往往比凭空设计的好用。

那它适合谁用？要把大量论文、合同、说明书喂给 AI 读的，要自己搭知识库让 AI 答题的，这一步「把 PDF 变成 AI 能读懂的干净文本」做扎实了，后面 AI 答得准不准，地基就稳多了。很多人盯着换更强的模型、改提示词，卡点其实常常在最前面这道——资料根本没喂干净。

它完全开源，pip 就能装，也有免登录的网页 demo，丢一份文件进去就能先看效果（许可证是它自己的开源许可，基于 Apache 2.0 加了些附加条件，最近还放宽了商用，门槛不高）。它叫 MinerU，是 OpenDataLab 团队的开源项目，GitHub 上就有。

#马力的AI知识分享#

发布于北京