📜 DocETL：赋能复杂的文档处理流水线

DocETL Figure

DocETL 是一个用于创建和执行数据处理流水线的工具，特别适用于复杂的文档处理任务。它提供：

一个用于迭代 Prompt 工程和流水线开发的交互式 UI Playground
一个用于从命令行或 Python 代码运行生产环境流水线的 Python 包

💡 需要编写流水线方面的帮助？ 你可以使用 Claude Code（推荐）来辅助编写流水线——请查看快速入门指南：https://ucbepic.github.io/docetl/quickstart-claude-code/ 如果你更倾向于使用 ChatGPT 或 Claude 应用程序，请访问 docetl.org/llms.txt，获取可以在描述任务前复制/粘贴的大型 Prompt。

🌟 社区项目

📚 教育资源

🚀 快速上手

使用 DocETL 主要有两种方式：

1. 🎮 DocWrangler：交互式 UI Playground（推荐用于开发）

DocWrangler 能够帮助你迭代式开发流水线：

通过尝试不同的 Prompt 并实时查看结果进行实验
一步步构建你的流水线
为生产环境导出最终的流水线配置

DocWrangler

DocWrangler 托管在 docetl.org/playground。若要在本地运行 Playground，你可以选择：

使用 Docker（推荐快速启动）：make docker
手动设置开发环境

详细说明请参阅 Playground 设置指南。

2. 📦 Python 包（用于生产环境）

如果你想将 DocETL 作为 Python 包使用：

前置条件

Python 3.10 或更高版本
OpenAI API Key

pip install docetl

在你的项目目录中创建一个 .env 文件：

OPENAI_API_KEY=your_api_key_here  # LLM 操作所必需（或填写你所选 LLM 的 Key）

⚠️ 重要：两个不同的 .env 文件

根目录 .env：由执行 DocETL 流水线的后端 Python 服务器使用

website/.env.local：由 DocWrangler 中的前端 TypeScript 代码使用（用于改进 Prompt 和聊天机器人等 UI 功能）

欲查看 DocETL 的使用示例，请查阅教程。

2. 🎮 DocWrangler 设置

要在本地运行 DocWrangler，有两种方案：

方案 A：使用 Docker（推荐快速启动）

让 DocWrangler Playground 运行起来最简单的方法：

创建所需的配置文件：

在根目录创建 .env（供执行流水线的后端 Python 服务器使用）：

OPENAI_API_KEY=your_api_key_here  # 供 DocETL 流水线执行引擎使用
# BACKEND 配置
BACKEND_ALLOW_ORIGINS=http://localhost:3000,http://127.0.0.1:3000
BACKEND_HOST=localhost
BACKEND_PORT=8000
BACKEND_RELOAD=True

# FRONTEND 配置
FRONTEND_HOST=0.0.0.0
FRONTEND_PORT=3000

# docker-compose 的主机端口映射（若未设置，将使用 docker-compose.yml 中的默认值）
FRONTEND_DOCKER_COMPOSE_PORT=3031
BACKEND_DOCKER_COMPOSE_PORT=8081

# 支持的文本文件编码
TEXT_FILE_ENCODINGS=utf-8,latin1,cp1252,iso-8859-1

在 website 目录创建 .env.local（供 DocWrangler UI 功能使用，如改进 Prompt 和聊天机器人）：

OPENAI_API_KEY=sk-xxx  # 供 TypeScript 功能使用：改进 Prompt、聊天机器人等
OPENAI_API_BASE=https://api.openai.com/v1
MODEL_NAME=gpt-4o-mini  # UI 助手使用的模型

NEXT_PUBLIC_BACKEND_HOST=localhost
NEXT_PUBLIC_BACKEND_PORT=8000
NEXT_PUBLIC_HOSTED_DOCWRANGLER=false

运行 Docker：

make docker

这将执行以下操作：

创建用于持久化数据的 Docker 卷
构建 DocETL 镜像
运行容器，UI 地址为 http://localhost:3000

清理 Docker 资源（注意：这会删除 Docker 卷）：

make docker-clean

AWS Bedrock

本框架支持与 AWS Bedrock 集成。启用步骤：

配置 AWS 凭证：

# (此处根据原始文档补全)
aws configure

ucbepic/docetl