© 2026FindAgent  · @simprr
返回列表
b

business-science/ai-data-science-team

An AI-powered data science team of agents to help you perform common data science tasks 10X faster.

agentsaiai-engineerai-engineeringcopilotdata-sciencedata-scientistgenerative-aigptmachine-learningml-engineerml-engineeringopenai
⭐

5.1k

Stars

🔱

875

Forks

👁

86

Watchers

📋

30

Issues

PythonMIT创建于 2024/12/11更新于 昨天
在 GitHub 上查看
README
由 Gemini 翻译整理

AI Data Science Team + AI Pipeline Studio

AI Data Science Team

AI Data Science Team 是一个由专门负责常见数据科学工作流的 AI Agent 组成的 Python 库,并包含一个旗舰应用:AI Pipeline Studio。该 Studio 能将你的工作转化为可视化、可复现的流水线,而 AI 团队则负责处理数据加载、清洗、可视化和建模任务。

状态: Beta 测试阶段。在 0.1.0 版本发布前,API 可能存在破坏性更新。

请在 GitHub 上为我们点个 ⭐(只需 2 秒,对我们意义重大)。

AI Pipeline Studio (旗舰应用)

AI Pipeline Studio 是 AI Data Science Team 实际应用的主要示例。

AI Pipeline Studio

亮点:

  • 以流水线为核心的工作区:可视化编辑器、数据表、图表、EDA、代码、模型、预测、MLflow
  • 手动 + AI 步骤,支持血缘追踪和可复现脚本
  • 多数据集处理与合并工作流
  • 项目保存:支持仅元数据或完整数据保存
  • 存储占用控制与恢复工作流

运行:

streamlit run apps/ai-pipeline-studio-app/app.py

完整应用文档:apps/ai-pipeline-studio-app/README.md

快速入门

环境要求

  • Python 3.10+
  • OpenAI API Key(或使用 Ollama 运行本地模型)

安装应用与库

克隆仓库并以可编辑模式安装:

pip install -e .

运行 AI Pipeline Studio 应用

streamlit run apps/ai-pipeline-studio-app/app.py

库概述

本仓库不仅包含 AI Pipeline Studio 应用,还包含底层的 AI Data Science Team 库。该库提供了用于以下任务的 Agent 构建块和多 Agent 工作流:

  • 数据加载与检查
  • 清洗、整理与特征工程
  • 可视化与 EDA(探索性数据分析)
  • 建模与评估(集成 H2O + MLflow 工具)
  • SQL 数据库交互

Agent 概览

Agent 示例位于 examples/ 目录下。值得关注的 Agent 包括:

  • 数据加载工具 Agent
  • 数据整理 Agent
  • 数据清洗 Agent
  • 数据可视化 Agent
  • EDA 工具 Agent
  • 特征工程 Agent
  • SQL 数据库 Agent
  • H2O ML Agent
  • MLflow 工具 Agent
  • 多 Agent 工作流(例如:Pandas 数据分析师、SQL 数据分析师)
  • 监督者 Agent(负责统筹其他 Agent)
  • 用于数据科学任务的自定义工具

应用

查看 apps/ 目录下的所有应用。主要应用包括:

  • AI Pipeline Studio: apps/ai-pipeline-studio-app/
  • EDA Explorer App: apps/exploratory-copilot-app/
  • Pandas Data Analyst App: apps/pandas-data-analyst-app/

使用 OpenAI

from langchain_openai import ChatOpenAI
llm = ChatOpenAI(
    model_name="gpt-4.1-mini",
)

使用 Ollama (本地 LLM)

ollama serve
ollama pull llama3.1:8b
from langchain_ollama import ChatOllama

llm = ChatOllama(
    model="llama3.1:8b",
)

下一代 AI Agent 研讨会

想学习如何为真实的数据科学工作流构建 AI Agent 和 AI 应用吗?欢迎加入我的下一代 AI 研讨会: https://learn.business-science.io/ai-register

贡献者
mE
项目信息
默认分支master
LicenseMIT License
创建时间2024/12/11
最近更新昨天
GAI 中文摘要

AI Data Science Team 是一个基于 Python 的智能代理库,旨在通过自动化执行数据加载、清洗、建模及可视化等常见任务,大幅提升数据科学工作的效率。该项目提供了一套协作式的 AI 代理团队,并配备旗舰应用 AI Pipeline Studio,能够将数据分析过程转化为可视化且可复现的流水线。

核心功能包括: 提供多种专业代理负责数据清洗、特征工程、EDA 及数据库交互等具体工作。 内置 AI Pipeline Studio 可视化工作区,支持对数据流和建模步骤进行直观管理。 支持手动与 AI 自动步骤的混合编排,确保整个数据处理过程具备完整的谱系与脚本可复现性。 支持多数据集的高效合并处理,并提供 MLflow 集成以实现模型监控与评估。 具备灵活的存储控制与项目重构能力,方便用户保存项目元数据或全量数据。

该项目适用于数据科学家、机器学习工程师及数据分析师,特别是在需要处理复杂数据流水线、追求高频迭代与实验可复现性的工作场景中表现突出。