© 2026FindAgent  · @simprr
返回列表
c

coleam00/mcp-crawl4ai-rag

Web Crawling and RAG Capabilities for AI Agents and AI Coding Assistants

⭐

2.1k

Stars

🔱

569

Forks

👁

54

Watchers

📋

57

Issues

PythonMIT创建于 2025/5/3更新于 今天
在 GitHub 上查看
README
由 Gemini 翻译整理

Crawl4AI RAG MCP Server

Web 爬取与 RAG 功能,助力 AI Agent 和 AI 编码助手。

这是一个结合了 Model Context Protocol (MCP)、Crawl4AI 和 Supabase 的强大实现,旨在为 AI Agent 和 AI 编码助手提供先进的网页爬取与 RAG(检索增强生成)能力。

通过此 MCP Server,你可以抓取任何内容,并将其知识应用于任何需要 RAG 的场景。

我的主要目标是将此 MCP Server 集成到 Archon 中,随着其演进,使其成为 AI 编码助手构建 AI Agent 的核心知识引擎。此 Crawl4AI/RAG MCP Server 的初版将在近期得到大幅改进,特别是增强其可配置性,以便你能够使用不同的 Embedding 模型,并通过 Ollama 在本地运行所有组件。

请将此 GitHub 仓库视为一个测试平台,这也是我目前没有非常积极地处理 Issue 和 Pull Request 的原因。不过,当我在 Archon V2 中引入它时,一定会全力完善!

概述

该 MCP Server 提供的工具使 AI Agent 能够爬取网站、将内容存储在向量数据库(Supabase)中,并对爬取的内容执行 RAG。它遵循了我在之前的视频频道中提供的 Mem0 MCP server 模板 所推荐的最佳实践。

该 Server 包含多种可启用的高级 RAG 策略,以提升检索质量:

  • Contextual Embeddings:实现丰富的语义理解。
  • Hybrid Search:结合向量搜索与关键词搜索。
  • Agentic RAG:用于提取专业的代码示例。
  • Reranking:利用交叉编码器(cross-encoder)模型提高结果相关性。
  • Knowledge Graph:用于 AI 幻觉检测和仓库代码分析。

请参阅下方的 配置 部分,了解如何启用和配置这些策略。

愿景

Crawl4AI RAG MCP Server 仅仅是一个开始。我们的目标如下:

  1. 集成到 Archon:将此系统直接内置于 Archon 中,为 AI 编码助手构建更强大的 AI Agent 提供全面的知识引擎。
  2. 多 Embedding 模型支持:超越 OpenAI,支持多种 Embedding 模型,包括能够通过 Ollama 在本地运行所有组件,以实现完全的控制和隐私保护。
  3. 高级 RAG 策略:实现先进的检索技术,如上下文检索(Contextual Retrieval)、延迟分块(Late Chunking)等,摆脱基础的“原始查找”,显著增强 RAG 系统的能力与精度。
  4. 增强的分块策略:实现受 Context 7 启发的分块方法,侧重于示例,并为每个分块创建独特且具有语义意义的片段,从而提高检索精度。
  5. 性能优化:提高爬取和索引速度,使“快速”索引新文档并在 AI 编码助手的同一 Prompt 中利用这些知识成为现实。

特性

  • 智能 URL 检测:自动检测并处理不同类型的 URL(常规网页、站点地图、文本文件)。
  • 递归爬取:跟踪内部链接以发现更多内容。
  • 并行处理:高效地同时爬取多个页面。
  • 内容分块:智能地根据标题和大小拆分内容,以便更好地进行处理。
  • 向量搜索:对爬取的内容执行 RAG,并可选择按数据源进行过滤以提高精度。
  • 源检索:获取可用的源以进行过滤,从而指导 RAG 流程。

工具

该 Server 提供核心的网页爬取与搜索工具:

核心工具(始终可用)

  1. crawl_single_page:快速爬取单个网页并将内容存入向量数据库。
  2. smart_crawl_url:根据提供的 URL 类型(站点地图、llms-full.txt 或需要递归爬取的常规网页)智能爬取整个网站。
  3. get_available_sources:获取数据库中所有可用源(域名)的列表。
  4. perform_rag_query:使用语义搜索查找相关内容,并支持可选的源过滤。

条件工具

  1. search_code_examples(需要 USE_AGENTIC_RAG=true):专门从爬取的文档中搜索代码示例及其摘要。该工具为 AI 编码助手提供定向的代码片段检索。

知识图谱工具(需要 USE_KNOWLEDGE_GRAPH=true,见下文)

  1. parse_github_repository:将 GitHub 仓库解析为 Neo4j 知识图谱,提取类、方法、函数及其关系,用于幻觉检测。
  2. check_ai_script_hallucinations:通过对照知识图谱验证导入、方法调用和类用法,分析 Python 脚本中的 AI 幻觉。
贡献者
cay
项目信息
默认分支main
LicenseMIT License
创建时间2025/5/3
最近更新今天
GAI 中文摘要

mcp-crawl4ai-rag 是一个基于模型上下文协议(MCP)构建的服务,旨在为 AI 代理和编程助手提供强大的网页抓取与检索增强生成(RAG)能力。它通过集成 Crawl4AI 和 Supabase,实现了从网页数据抓取、向量化存储到智能知识检索的全链路自动化,有效解决了 AI 获取实时外部知识并进行深度分析的难题。

该系统支持对任意网页内容进行深度抓取与结构化提取。利用 Supabase 实现高效的向量数据库存储,确保抓取内容的持久化与快速调用。内置混合搜索与重排序机制,显著提升了检索结果的相关性和准确性。支持知识图谱功能,可辅助检测 AI 幻觉并进行代码库的深度分析。

该项目适用于需要为 AI 编程助手构建知识库的开发者,以及希望赋予 AI 代理实时联网学习和深度文档分析能力的各种人工智能研究与工程场景。