摇摆时间线ZHLMI 26-03-21 20:40
微博认证:上海慧龙计算机系统有限公司多媒体经理

之前让小龙虾准备用 QMD 做知识库,但是只做了一半,因为 QMD 对 PDF 这种格式支持很一般,一直想找个好一点的解析工具转成 Markdown、JSON 格式。

等下周有空了试试 MinerU 和 Opendataloader-PDF 哪个好用一些,准备把剩下的一半做完它。目前倾向于用 Opendataloader-PDF,因为它是少见的能为每一个提取出的元素(标题、段落、图片、表格)都提供精确 Bounding Box(边界框坐标)的工具,可能会更适合我一些。[并不简单]

发布于 美国