© 2026FindAgent  · @simprr
返回列表
s

starpig1129/DATAGEN

DATAGEN: AI-driven multi-agent research assistant automating hypothesis generation, data analysis, and report writing.

agentaiai-data-analysisartificial-intelligencecode-generationdata-analysisdata-analyticsdata-sciencelangchainlanggraphlarge-language-modellarge-language-modelsllmmultiagent-systemspython
⭐

1.7k

Stars

🔱

221

Forks

👁

23

Watchers

📋

1

Issues

PythonMIT创建于 2024/7/23更新于 今天
在 GitHub 上查看
README
由 Gemini 翻译整理

DATAGEN (原 AI-Data-Analysis-MultiAgent)

DATAGEN Banner

关于 DATAGEN

DATAGEN 是一个强有力的品牌名称,代表了我们利用人工智能技术进行数据生成与分析的愿景。该名称结合了“DATA”(数据)和“GEN”(生成/Generation),完美体现了本项目核心功能——通过多智能体(Multi-Agent)系统实现自动化数据分析与研究。

System Architecture

概述

DATAGEN 是一个先进的 AI 驱动型数据分析与研究平台,利用多个专用智能体来简化数据分析、可视化和报告生成等任务。我们的平台整合了 LangChain、OpenAI 的 GPT 模型以及 LangGraph 等前沿技术,以处理复杂的研究流程,并通过集成多样化的 AI 架构实现最佳性能。

核心功能

智能分析核心

  • 先进的假设引擎
    • AI 驱动的假设生成与验证
    • 自动化的研究方向优化
    • 实时的假设优化与改进
  • 企业级数据处理
    • 强大的数据清洗与转换
    • 可扩展的分析流水线
    • 自动化质量保证
  • 动态可视化套件
    • 交互式数据可视化
    • 自定义报告生成
    • 自动化洞察提取

先进技术架构

  • 多智能体(Multi-Agent)智能
    • 针对不同任务的专用智能体
    • 智能的任务分配
    • 实时协调与优化
  • 智能记忆管理
    • 最前沿的 Note Taker 智能体
    • 高效的上下文保留系统
    • 无缝的工作流集成
  • 自适应处理流水线
    • 动态工作流调整
    • 自动化的资源优化
    • 实时性能监控

为什么选择 DATAGEN

DATAGEN 通过其创新的多智能体架构和智能自动化能力,彻底改变了数据分析方式:

  1. 先进的多智能体系统

    • 专用智能体协作工作
    • 智能的任务分配与协调
    • 实时适应复杂的分析需求
  2. 智能上下文管理

    • 首创的 Note Taker 智能体用于状态追踪
    • 高效的内存利用与上下文保留
    • 分析阶段间的无缝集成
  3. 企业级性能

    • 稳健且可扩展的架构
    • 一致且可靠的结果
    • 可直接用于生产环境的实现

系统要求

  • Python 3.10 或更高版本

安装

  1. 克隆仓库:
git clone https://github.com/starpig1129/DATAGEN.git
  1. 创建并激活 Conda 虚拟环境:
conda create -n datagen python=3.10
conda activate datagen
  1. 安装依赖:
pip install -r requirements.txt
  1. 设置环境变量: 将 .env Example 重命名为 .env 并填入所有必要数值
# 您的数据存储路径 (必需)
# 同时由 filesystem MCP server 使用
WORKING_DIRECTORY = ./data/

# Conda 环境名称 (必需)
CONDA_ENV = datagen

# ChromeDriver 可执行文件路径 (必需)
CHROMEDRIVER_PATH = ./chromedriver-linux64/chromedriver

# Firecrawl API key (可选)
# 注意:如果缺少此 Key,查询能力可能会受限
FIRECRAWL_API_KEY = XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

# OpenAI API key (可选)
OPENAI_API_KEY = XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
# Anthropic API key (可选)
ANTHROPIC_API_KEY = XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
# Google API key (可选)
GOOGLE_API_KEY = XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

# LangChain API key (可选)
# 用于监控处理过程
LANGCHAIN_API_KEY = XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

# MCP (Model Context Protocol) 设置 (可选)
# 用于 web-search MCP server 的 Tavily API key
TAVILY_API_KEY = XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
# 用于 github MCP server 的 GitHub token
GITHUB_TOKEN = XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

使用方法

使用 Python 脚本

您可以通过运行 main.py 来使用该系统:

  1. 将您的数据文件(例如 YourDataName.csv)放置在 data 目录中。

  2. 修改 main.py 中 main() 函数里的 user_input 变量:

user_input = '''
datapath:YourDataName.csv
Use machine learning to perform data analysis and write complete graphical reports
'''
  1. 运行脚本:
python main.py

主要组件

  • hypothesis_agent:生成研究假设
  • process_agent:监督整个研究流程
  • visualization_agent:创建数据可视化
  • code_agent:编写数据分析代码
  • searcher_agent:执行文献和网络搜索
  • report_agent:编写研究报告
  • quality_review_agent:执行质量评审
  • note_agent:记录研究过程

工作流

该系统使用 LangGraph 创建了一个管理整个研究过程的状态图。工作流包含以下步骤:

贡献者
sa
项目信息
默认分支main
LicenseMIT License
创建时间2024/7/23
最近更新今天
GAI 中文摘要

DATAGEN 是一个基于人工智能的多智能体研究助手平台,旨在通过自动化流程彻底改变数据分析与研究工作。该项目利用 LangChain 和 LangGraph 等前沿技术,能够自主完成从假设生成、数据清洗到深度分析及报告撰写的全流程任务,有效提升科研与数据分析的效率。

该系统具备先进的假设引擎,支持人工智能驱动的假设生成、验证及研究方向的实时优化。 内置企业级数据处理管道,能够自动执行数据清洗、转换与质量保证,确保分析结果的准确性。 配备动态可视化套件,支持交互式图表生成与自动化的深度洞察提取。 采用多智能体协作架构,通过智能任务分配与实时协同,高效处理复杂的研究需求。 具备智能记忆管理功能,通过专门的记录代理维护上下文,确保分析工作流的无缝衔接。

该项目适用于需要快速进行数据探索、验证假设并生成研究报告的数据科学家、科研人员及企业数据分析团队,特别适合处理复杂且重复性高的数据研究场景。