A system for agentic LLM-powered data processing and ETL
DocETL 是一个专为复杂文档处理任务设计的智能数据处理系统,通过引入代理机制利用大语言模型(LLM)实现自动化的 ETL 工作流。该项目旨在解决传统数据处理工具难以应对非结构化文档的痛点,帮助开发者高效完成从文档分析到数据提取的全流程。
提供直观的交互式 UI 开发环境,支持通过提示工程和实时预览快速构建并调试数据处理流程。支持将定义好的流水线配置直接导出,通过 Python 包或命令行工具在生产环境中大规模运行。具备强大的语义处理能力,能自动化执行复杂的文档解析、内容提取及数据转换任务。
适用于需要处理大规模非结构化文档的科研人员、数据工程师及 AI 应用开发者。主要用于各类复杂文档的智能自动化处理、业务数据的结构化提取以及定制化数据流水线的快速构建。