数据处理和文档分析工作经常涉及复杂的多步骤流程,手动编写和调试管道耗时费力。
DocETL 是一个基于大语言模型(LLM)驱动的开源数据处理和ETL系统,专注于构建复杂的文档处理流水线,极大简化了数据抽取、转换和加载的自动化流程。
它提供交互式UI界面 DocWrangler,方便用户逐步设计和优化处理管道;同时也有Python包支持命令行和代码调用,适合生产环境使用。
主要特色:
- 交互式UI工具,支持动态调试和迭代开发数据处理流程
- 结合LLM能力,辅助生成和优化ETL管道
- 支持多种文档格式和非结构化数据分析
- 课堂示例和社区项目丰富,方便快速上手和扩展
- 支持本地部署和Docker环境,兼容多种云服务(如AWS Bedrock)
GitHub地址:github.com/ucbepic/docetl
适合需要构建智能文档处理、数据管道和自动化ETL流程的开发者和数据工程师。
发布于 北京
