activeloopai/deeplake

Deeplake is AI Data Runtime for Agents. It provides serverless postgres with a multimodal datalake, enabling scalable retrieval and training.

agentagentic-ragaiclawbotcomputer-visiondatalakedeep-learningfilesystemlarge-language-modelsllmmemorymlopsmultimodalopenclawpostgrespytorchragskillvector-database

GAI 中文摘要

Deep Lake 是一个专为人工智能打造的数据运行时与数据库，旨在解决大模型应用及深度学习任务中多模态数据存储与检索的复杂性。它将无服务器 Postgres 与多模态数据湖集成，为 AI Agent 和深度学习模型提供可扩展的数据存储、管理及训练支持。

提供对包括文本、图像、视频、音频及嵌入向量在内的多种数据类型的原生支持与统一管理。具备高性能的向量搜索与查询能力，能够高效支撑构建大语言模型应用与检索增强生成（RAG）。支持大规模数据集的流式传输，在深度学习模型训练阶段可实现高效的数据存取与处理。内置数据版本控制与血缘追溯功能，确保模型训练全生命周期的数据管理合规与透明。提供高度灵活的存储架构，支持在本地、内存及主流公有云（AWS S3、GCP、Azure）之间无缝切换。

适用于正在构建企业级大模型应用、AI Agent 或从事大规模多模态深度学习模型训练的研发团队及工程师。该平台可广泛应用于需要统一管理非结构化数据并进行实时向量搜索的复杂 AI 开发场景中。

⭐

9.2k

Stars

🔱

710

Forks

👁

Watchers

📋

Issues

C++Apache-2.0创建于 2019/8/9更新于今天

在 GitHub 上查看访问主页

README

由 Gemini 翻译整理

Deep Lake：AI 数据库

文档 • 快速入门 • API 参考 • LangChain 与 VectorDBs 课程 • 博客 • 白皮书 • Slack • Twitter

什么是 Deep Lake？

Deep Lake 是一个专为 AI 设计的数据库，其核心在于一种针对深度学习应用优化过的存储格式。Deep Lake 可用于：

在构建 LLM 应用时，存储和搜索数据及向量。
在训练深度学习模型时，管理数据集。

Deep Lake 通过提供对所有数据类型（Embedding、音频、文本、视频、图像、DICOM、PDF、标注等更多类型）的存储、查询和向量搜索、模型训练时的数据流式传输、数据版本控制和血缘追踪，以及与 LangChain、LlamaIndex、Weights & Biases 等常用工具的集成，简化了企业级 LLM 产品的部署。Deep Lake 适用于任何规模的数据，它是 Serverless 的，允许你将所有数据存储在自己的云端，并集中管理。Deep Lake 目前被 Intel、Bayer Radiology、Matterport、ZERO Systems、Red Cross、Yale 和 Oxford 等机构使用。

Deep Lake 包含以下功能：

多云支持 (S3, GCP, Azure) 使用统一的 API 即可实现数据集的上传、下载以及与 S3、Azure、GCP、Activeloop 云、本地存储或内存存储之间的数据流式传输。兼容任何 S3 协议的存储系统（如 MinIO）。
原生压缩与类似 NumPy 的惰性索引 以原始压缩格式存储图像、音频和视频。像操作系统内存中的 NumPy 数组集合一样，对数据进行切片、索引、迭代和交互。Deep Lake 仅在需要时（例如训练模型或运行查询时）才会惰性加载数据。
适用于主流深度学习框架的 DataLoaders Deep Lake 内置了针对 PyTorch 和 TensorFlow 的 DataLoaders。只需几行代码即可训练模型，我们甚至负责处理数据集的洗牌（Shuffling）。
与强大工具的集成 Deep Lake 与 LangChain 和 LlamaIndex 集成作为 LLM 应用的向量存储；与 Weights & Biases 集成以进行模型训练过程中的数据血缘追踪；与 MMDetection 和 MMSegmentation 集成以训练目标检测和语义分割模型。
可在秒级访问 100 多个主流图像、视频和音频数据集 Deep Lake 社区已经上传了 100 多个数据集，如 MNIST、COCO、ImageNet、CIFAR、GTZAN 等。
Deep Lake App 中的即时可视化支持 Deep Lake 数据集可以在 Deep Lake 可视化工具中即时查看边界框、掩码、标注等（见下方）。

🚀 如何安装 Deep Lake

可以通过 pip 安装 Deep Lake：

pip install deeplake

要访问 Deep Lake 的所有功能，请在 Deep Lake App 中注册。

🧠 Deep Lake 应用代码示例

向量存储 (Vector Store) 应用

将 Deep Lake 用作构建 LLM 应用的向量存储：

深度学习应用

在训练深度学习模型时使用 Deep Lake 管理数据：

- 深度学习快速入门

- 模型训练教程

⚙️ 集成

Deep Lake 提供了与其他工具的集成，以简化您的深度学习工作流。当前的集成包括：

LLM 应用
- 使用 Deep Lake 作为 LLM 应用的向量存储。我们的集成将 LangChain 的 VectorStores API 与 Deep Lake 数据集相结合，作为底层数据存储。该集成是一个 Serverless 向量存储，可以部署在本地或您选择的云平台上。

📚 文档

入门指南、示例、教程、API 参考及其他有用信息，请访问我们的文档页面。

🎓 学生与教育者专区

Deep Lake 用户可以...