Crawl4AI RAG MCP Server

Web Crawling (网页抓取) 与 RAG (检索增强生成) 能力，专为 AI Agent 和 AI 编码助手设计。

这是一个基于 Model Context Protocol (MCP) 的强大实现，集成了 Crawl4AI 和 Supabase，旨在为 AI Agent 和 AI 编码助手提供先进的网页抓取与 RAG 功能。

通过此 MCP Server，你可以抓取任何内容，并在 RAG 的任何场景中使用这些知识。

该项目的主要目标是在我将其演进为 AI 编码助手构建 AI Agent 的知识引擎过程中，整合进 Archon。目前的 Crawl4AI/RAG MCP Server 初版将在近期得到大幅改进，特别是增强其可配置性，以便你能够使用不同的 Embedding 模型，并通过 Ollama 在本地运行所有内容。

请将此 GitHub 仓库视为一个测试平台，这也是我目前没有非常积极地处理 Issue 和 Pull Request 的原因。不过，随着我将其集成到 Archon V2，我肯定会进行处理！

概述

该 MCP Server 提供的工具使 AI Agent 能够抓取网站，将内容存储到向量数据库 (Supabase) 中，并对抓取的内容执行 RAG。它遵循了我之前在频道中分享的 Mem0 MCP server 模板所推荐的 MCP Server 构建最佳实践。

该 Server 包含多种可启用的高级 RAG 策略，以提升检索质量：

Contextual Embeddings (上下文嵌入)：用于增强语义理解
Hybrid Search (混合搜索)：结合向量搜索与关键词搜索
Agentic RAG (代理式 RAG)：用于专门的代码示例提取
Reranking (重排序)：使用 Cross-Encoder 模型提升结果相关性
Knowledge Graph (知识图谱)：用于 AI 幻觉检测和仓库代码分析

有关如何启用和配置这些策略的详情，请参阅下方的配置部分。

愿景

Crawl4AI RAG MCP Server 仅仅是一个开始。以下是我们的发展方向：

与 Archon 集成：将此系统直接构建到 Archon 中，为 AI 编码助手创建一个全面的知识引擎，从而构建更优秀的 AI Agent。
多 Embedding 模型支持：超越 OpenAI，支持多种 Embedding 模型，包括能够通过 Ollama 在本地运行所有内容，以实现完全的控制和隐私保护。
高级 RAG 策略：实现复杂的检索技术，如上下文检索 (Contextual Retrieval)、延迟分块 (Late Chunking) 等，从而超越基础的“朴素查找”，显著增强 RAG 系统的能力和精度，特别是在与 Archon 集成时。
增强的分块策略：实现受 Context 7 启发的分块方法，侧重于示例并为每个块创建独特且语义明确的部分，从而提高检索精度。
性能优化：提高抓取和索引速度，使其能够更“快速”地索引新文档，从而在 AI 编码助手的同一个 Prompt 中利用这些文档。

特性

智能 URL 检测：自动检测并处理不同类型的 URL（常规网页、Sitemap、文本文件）
递归抓取：跟踪内部链接以发现内容
并行处理：高效地同时抓取多个页面
内容分块：智能地按标题和大小拆分内容，以便更好地处理
向量搜索：对抓取的内容执行 RAG，可选择按数据源进行过滤以提高精度
来源检索：检索可用于过滤的来源，以引导 RAG 过程

工具

该 Server 提供必要的网页抓取和搜索工具：

核心工具（始终可用）

crawl_single_page：快速抓取单个网页并将其内容存储在向量数据库中
smart_crawl_url：根据提供的 URL 类型（Sitemap、llms-full.txt 或需要递归抓取的常规网页）智能地抓取整个网站
get_available_sources：获取数据库中所有可用来源（域名）的列表
perform_rag_query：使用语义搜索查找相关内容，并支持可选的来源过滤

条件工具

search_code_examples (需要设置 USE_AGENTIC_RAG=true)：从抓取的文档中专门搜索代码示例及其摘要。该工具为 AI 编码助手提供了有针对性的代码片段检索。

知识图谱工具 (需要设置 `USE_KNOWLEDGE_GRAPH=true`，详见下文)

parse_github_repository：将 GitHub 仓库解析为 Neo4j 知识图谱，提取类、方法、函数及其关系，用于幻觉检测
check_ai_script_hallucinations：通过对照知识图谱验证导入、方法调用和类用法，分析 Python 脚本是否存在 AI 幻觉
query_knowledge_graph：对知识图谱执行自定义查询，以获取关于代码结构和关系的见解

coleam00/mcp-crawl4ai-rag

Crawl4AI RAG MCP Server

概述

愿景

特性

工具

核心工具（始终可用）

条件工具

知识图谱工具 (需要设置 USE_KNOWLEDGE_GRAPH=true，详见下文)

知识图谱工具 (需要设置 `USE_KNOWLEDGE_GRAPH=true`，详见下文)