微软推出免费 Python 库,将任何文档转换为 Markdown
MarkItDown 支持以下格式:
PDF
PowerPoint 幻灯片
Word 文档
Excel 表格
图片(支持 EXIF 元数据和 OCR 光学字符识别)
音频(支持 EXIF 元数据和语音转录)
HTML 网页
基于文本的格式(如 CSV、JSON、XML)
ZIP 压缩文件
Youtube 链接
EPUB 电子书
微软推出免费 Python 库,将任何文档转换为 Markdown
MarkItDown 支持以下格式:
PDF
PowerPoint 幻灯片
Word 文档
Excel 表格
图片(支持 EXIF 元数据和 OCR 光学字符识别)
音频(支持 EXIF 元数据和语音转录)
HTML 网页
基于文本的格式(如 CSV、JSON、XML)
ZIP 压缩文件
Youtube 链接
EPUB 电子书