DocStrange解决文档转数据难题

做 RAG 或者给 AI 投喂资料时，最头疼的就是处理 PDF 和图片里的表格。提取出来的文字往往格式错乱，尤其是复杂的排版，根本没法直接用。

刚好在 GitHub 找到一个叫 DocStrange 的开源项目，专门解决文档转数据的难题。

能把各种格式的文档，精准转换为大模型最喜欢的 Markdown 或结构化 JSON。

支持 PDF、图片、Office 文档甚至网页链接，核心能力是基于 OCR 和布局分析，深度理解文档结构。

GitHub：github.com/NanoNets/docstrange

不仅能还原复杂的表格数据，还能根据我们指定的字段或 Schema，直接提取出结构化的 JSON 数据。

提供了一个开箱即用的本地 Web 界面，拖拽文件就能转换。并且支持本地 GPU 加速运行，所有数据都在本地处理，隐私安全更有保障。

特别适合正在搭建 RAG 知识库，或者需要批量处理扫描件、发票等非结构化数据的朋友。

#HOW I AI##AI创造营#

发布于广东