A system for agentic LLM-powered data processing and ETL
DocETL 是一个基于大语言模型的智能数据处理与 ETL(抽取、转换、加载)系统,旨在解决处理复杂文档时的自动化管道构建难题。它通过代理式工作流提供灵活的框架,帮助用户将非结构化文档转化为结构化数据,简化了从原型设计到生产部署的全流程。
提供交互式的可视化界面 DocWrangler,支持对提示词工程和管道逻辑进行实时迭代开发。 具备强大的 Python 包支持,能够直接从命令行或代码中部署和执行复杂的生产级数据处理管道。 内置多种数据操作算子,支持通过模型推理对非结构化文档进行清洗、提取、转换及质量优化。 支持导出和复用管道配置文件,实现开发环境与生产环境的无缝衔接。
适用于需要处理大量非结构化文档的数据科学家、工程师及开发人员,特别是在构建知识库、从报告中提取数据或自动化复杂文档工作流的场景中表现优异。