GitHubDaily 26-01-25 21:30
微博认证:AI博主

做 RAG 或者给 AI 投喂资料时,最头疼的就是处理 PDF 和图片里的表格。提取出来的文字往往格式错乱,尤其是复杂的排版,根本没法直接用。

刚好在 GitHub 找到一个叫 DocStrange 的开源项目,专门解决文档转数据的难题。

能把各种格式的文档,精准转换为大模型最喜欢的 Markdown 或结构化 JSON。

支持 PDF、图片、Office 文档甚至网页链接,核心能力是基于 OCR 和布局分析,深度理解文档结构。

GitHub:github.com/NanoNets/docstrange

不仅能还原复杂的表格数据,还能根据我们指定的字段或 Schema,直接提取出结构化的 JSON 数据。

提供了一个开箱即用的本地 Web 界面,拖拽文件就能转换。并且支持本地 GPU 加速运行,所有数据都在本地处理,隐私安全更有保障。

特别适合正在搭建 RAG 知识库,或者需要批量处理扫描件、发票等非结构化数据的朋友。

#HOW I AI##AI创造营#

发布于 广东