© 2026FindAgent  · @simprr
返回列表
a

activeloopai/deeplake

Deeplake is AI Data Runtime for Agents. It provides serverless postgres with a multimodal datalake, enabling scalable retrieval and training.

agentagentic-ragaiclawbotcomputer-visiondatalakedeep-learningfilesystemlarge-language-modelsllmmemorymlopsmultimodalopenclawpostgrespytorchragskillvector-database
⭐

9.1k

Stars

🔱

707

Forks

👁

96

Watchers

📋

64

Issues

C++Apache-2.0创建于 2019/8/9更新于 昨天
在 GitHub 上查看访问主页
README
由 Gemini 翻译整理

Deep Lake: AI 专用数据库

文档 • 快速入门 • API 参考 • LangChain & VectorDBs 课程 • 博客 • 白皮书 • Slack • Twitter

什么是 Deep Lake?

Deep Lake 是专为 AI 设计的数据库,其底层存储格式针对深度学习应用进行了深度优化。Deep Lake 可用于:

  1. 在构建 LLM 应用时存储和检索数据及向量
  2. 在训练深度学习模型时管理数据集

Deep Lake 通过提供全类型数据(embeddings、音频、文本、视频、图像、DICOM、PDF、标注等更多类型)的存储、查询与向量搜索、大规模模型训练中的数据流式传输、数据版本控制与溯源,以及与 LangChain、LlamaIndex、Weights & Biases 等流行工具的集成,简化了企业级 LLM 产品的部署流程。Deep Lake 支持任意规模的数据,采用 Serverless 架构,允许你将所有数据统一存储在自己的云端环境中。Deep Lake 目前被 Intel、Bayer Radiology、Matterport、ZERO Systems、Red Cross、Yale 及 Oxford 等机构广泛使用。

Deep Lake 的核心功能:

  • 多云支持 (S3, GCP, Azure) 使用统一的 API 即可实现数据集在 S3、Azure、GCP、Activeloop 云、本地存储或内存存储之间的上传、下载和流式传输。兼容任何支持 S3 协议的存储系统,例如 MinIO。

  • 原生压缩与延迟加载(Lazy NumPy-like Indexing) 以原生压缩格式存储图像、音频和视频。你可以像操作系统内存中的 NumPy 数组集合一样,对数据进行切片、索引、迭代和交互。Deep Lake 仅在需要时(如模型训练或执行查询时)才延迟加载数据。

  • 主流深度学习框架的数据加载器 Deep Lake 内置了适配 PyTorch 和 TensorFlow 的数据加载器。只需几行代码即可开始训练模型,我们甚至负责处理数据集的洗牌(shuffling)工作。:)

  • 与强大工具的深度集成 Deep Lake 与 LangChain 和 LlamaIndex 集成,可作为 LLM 应用的向量存储;与 Weights & Biases 集成,用于模型训练过程中的数据溯源;与 MMDetection 和 MMSegmentation 集成,用于训练目标检测和语义分割模型。

  • 秒级获取 100+ 热门图像、视频和音频数据集 Deep Lake 社区已上传超过 100 个图像、视频和音频数据集,如 MNIST、COCO、ImageNet、CIFAR、GTZAN 等。

  • Deep Lake App 提供即时可视化支持 Deep Lake 数据集可以通过 Deep Lake Visualizer 即时可视化,包括边界框(bounding boxes)、掩码(masks)、标注等(见下图)。

Visualizer

🚀 如何安装 Deep Lake

可以通过 pip 安装 Deep Lake:

pip install deeplake

若要访问 Deep Lake 的全部功能,请在 Deep Lake App 中注册。

🧠 基于应用场景的 Deep Lake 代码示例

向量存储(Vector Store)应用

将 Deep Lake 作为向量存储构建 LLM 应用:

- 向量存储快速入门

- 向量存储教程

- LangChain 集成

- LlamaIndex 集成

- 使用 Deep Lake 进行图像相似度搜索

深度学习应用

使用 Deep Lake 管理深度学习模型训练过程中的数据:

- 深度学习快速入门

- 模型训练教程

⚙️ 集成

Deep Lake 提供了与其他工具的集成,旨在简化你的深度学习工作流。目前的集成包括:

  • LLM 应用
    • 使用 Deep Lake 作为 LLM 应用的向量存储。我们的集成方案将 LangChain 的 VectorStores API 与 Deep Lake 数据集结合,作为底层数据存储。这是一个 Serverless 向量存储,可以部署在本地或你选择的任何云平台上。

📚 文档

入门指南、示例、教程、API 参考及其他实用信息,请访问我们的 文档页面。

🎓 面向学生与教育工作者

Deep Lake 用户可以...

贡献者
FAdfklibka
项目信息
默认分支main
LicenseApache License 2.0
创建时间2019/8/9
最近更新昨天
GAI 中文摘要

Deep Lake 是一个专为人工智能打造的 AI 数据运行时与数据库,旨在解决多模态数据存储、检索及模型训练的扩展性难题。该项目通过提供无服务器化的 Postgres 架构,帮助开发者在单一平台上高效管理从嵌入向量到各类多模态资产的所有数据。

提供高性能的向量数据库功能,支持在构建大型语言模型应用时进行快速的数据存储与检索。 支持包括文本、音频、视频、图像及医疗影像在内的多种格式数据存储,简化了深度学习数据资产的管理流程。 具备数据流式传输能力,可在进行大规模模型训练时实现高效的数据读取与处理。 提供企业级的数据版本控制与血缘追踪功能,确保 AI 开发流程的透明度与可追溯性。 与 LangChain、LlamaIndex 等主流 AI 生态工具无缝集成,支持灵活部署于本地或主流公有云环境。

适用于需要处理大规模多模态数据并进行模型训练或 LLM 应用开发的 AI 工程师与数据科学家,是构建企业级代理(Agent)系统和 AI 数据基础设施的理想选择。