好同事,好朋友们太强大了,教了一个文档转换方案,我得记录下来,备忘
1,把扫描件pdf转成word或md文档有好几种方式,其中MinerU模型是目前转换效果最好的之一。基于这个模型的格式转换又可以分简单和复杂的方法。
2,先说简单的,http://t.cn/A6rnDOx2到这个网站下载一个客户端,直接上传下载即可,记得要用精准解析API模式;
3,另一个复杂一点的方法,其实也是先用MinerU解析,然后自动整成你要的排版格式。这个亲爱的**是用python脚本的,在Obsidian里跑的脚本,也可以在其他Agent里跑,这个方法的实现门槛有点高。
4,目前还是建议直接用MinerU客户端,后期格式手动改改就行
发布于 上海
