爱可可-爱生活 25-11-30 08:10
微博认证:AI博主 2025微博新锐新知博主

数据处理和文档分析工作经常涉及复杂的多步骤流程,手动编写和调试管道耗时费力。

DocETL 是一个基于大语言模型(LLM)驱动的开源数据处理和ETL系统,专注于构建复杂的文档处理流水线,极大简化了数据抽取、转换和加载的自动化流程。

它提供交互式UI界面 DocWrangler,方便用户逐步设计和优化处理管道;同时也有Python包支持命令行和代码调用,适合生产环境使用。

主要特色:

- 交互式UI工具,支持动态调试和迭代开发数据处理流程
- 结合LLM能力,辅助生成和优化ETL管道
- 支持多种文档格式和非结构化数据分析
- 课堂示例和社区项目丰富,方便快速上手和扩展
- 支持本地部署和Docker环境,兼容多种云服务(如AWS Bedrock)

GitHub地址:github.com/ucbepic/docetl

适合需要构建智能文档处理、数据管道和自动化ETL流程的开发者和数据工程师。

发布于 北京