如果你的工作需要经常把 PDF 里的内容摘出来,并且保留原来的格式的话,推荐大家使用 MinerU 这个网站。
目前OCR 软件,比如扫描全能王扫描后虽然也能转成 word 之类的文档,但是文档格式会发生变化,尤其是有图像的情况下,非常不方便。
我早上试了一下,一份190多页的财报,MinerU 这个网站可以按照原来的格式,转成 Markdown 格式。导出的格式支持图4这些。
哪怕是图2这种多表头的PDF,也能整齐转成图3 这种形式。
有需要的同学可以试试,目前是免费的。
发布于 重庆
