马力AI和商业思维
26-06-05 20:57 微博认证:知群 CEO 微博新知博主

把一份几十页的 PDF 直接丢给 AI 让它读、让它总结,结果它读出来的东西跟原文对不上,这种坑你大概率踩过。

最近老有人问我同一个问题:自己搭了个知识库,把一堆资料喂进去让 AI 答题,可它老答错、老胡说,到底哪儿出了问题。多半不是模型笨,是喂进去的资料本身就喂坏了。有个能把这一步做扎实的开源工具,叫 MinerU,值得讲讲。

先说为什么直接丢 PDF 会出乱。

PDF 在大模型眼里,基本就是一锅排好版的字。它不知道哪块是表格、哪块是正文、哪块是页眉页脚。所以一读,表格被拆得稀碎,公式变成乱码,多栏排版的文章顺序全读串了,连页码、水印都被当正文吞进去。这就像你把一摞散乱的复印纸塞给一个新来的助理,让他汇报重点——不是他不行,是你给的东西本身就没法读。

MinerU 干的就是中间这道整理活:把复杂文档(PDF、Office 文档、图片,甚至网页)转成干净的、适合喂给大模型读的 Markdown 或 JSON。做它的是一个叫 OpenDataLab 的团队。

它强在哪,我挑几条我自己用下来最在意的说。

一是表格和公式。表格它会还原成结构,不是揉成一团;公式直接转成 LaTeX,数学、论文这种重灾区终于能正常读了。二是阅读顺序。多栏的论文、排版花哨的文档,它能按人眼读的顺序排好,不会把左右两栏掺成一锅粥,还会自动把页眉、页脚、脚注、页码这些噪音去掉。第一次见它把页眉页脚自动剔干净那下,我愣了一下,这活以前我都是手动删的。

三是它认得多。背后是 VLM 加 OCR(光学字符识别)双引擎,号称能认109种语言,扫描件、手写也能识别。而且不只啃 PDF,docx、pptx、xlsx 这些 Office 文件也能直接解析。

这工具不是小打小闹。GitHub 上6万多颗 star,最近一直在更新,很活跃。一堆做 RAG(检索增强生成,说白了就是让 AI 答题前先翻一遍资料库)的框架都接了它,像 LangChain、Dify、RAGFlow 这些。它最早其实是给大模型做预训练准备数据时顺手做出来的,这种从一线需求里长出来的工具,往往比凭空设计的好用。

那它适合谁用?要把大量论文、合同、说明书喂给 AI 读的,要自己搭知识库让 AI 答题的,这一步「把 PDF 变成 AI 能读懂的干净文本」做扎实了,后面 AI 答得准不准,地基就稳多了。很多人盯着换更强的模型、改提示词,卡点其实常常在最前面这道——资料根本没喂干净。

它完全开源,pip 就能装,也有免登录的网页 demo,丢一份文件进去就能先看效果(许可证是它自己的开源许可,基于 Apache 2.0 加了些附加条件,最近还放宽了商用,门槛不高)。它叫 MinerU,是 OpenDataLab 团队的开源项目,GitHub 上就有。

#马力的AI知识分享#

发布于 北京