Spider

Rust 编写的最快 Web 爬虫和采集器。

Spider 是一个以高并发为核心的 Rust 爬虫引擎。它能在页面获取的第一时间进行流式传输，仅在页面确实需要时才渲染 JavaScript，并且无需修改代码即可从单个脚本扩展到分布式集群。相同的引擎驱动着 Spider Cloud，因此你可以在本地进行原型开发，只需更改一个配置即可切换到托管的基础设施。

在云端启动

大规模爬取过程中最困难的部分通常不是代码本身，而是代理、无头浏览器（headless browsers）以及持续对抗反爬虫机制的消耗。Spider Cloud 在相同的 API 后端为你处理了所有这些复杂问题。

获取免费 API Key →（无需信用卡）

[dependencies]
spider = { version = "2", features = ["spider_cloud"] }

use spider::configuration::{SpiderCloudConfig, SpiderCloudMode};
use spider::website::Website;

let cloud = SpiderCloudConfig::new("sk-...")
    .with_mode(SpiderCloudMode::Smart); // 默认使用代理，并在被封锁时自动解锁

let mut website = Website::new("https://example.com")
    .with_spider_cloud_config(cloud)
    .build()?;

Smart 模式会优先通过代理路由，仅在遇到反爬封锁的页面时才升级使用解锁功能。这样你只需在确实需要时才为绕过限制付费，避免了不必要的成本。

或在本地运行

无需 Key，无需服务，纯粹的爬虫工具。

[dependencies]
spider = "2"

use spider::{tokio, website::Website};

#[tokio::main]
async fn main() {
    let mut website = Website::new("https://example.com");
    let mut rx = website.subscribe(16);

    tokio::spawn(async move {
        while let Ok(page) = rx.recv().await {
            println!("{}  {}", page.status_code, page.get_url());
        }
    });

    website.crawl().await;
    website.unsubscribe();
}

页面在获取的同时进行流式处理。爬虫会自动发现链接、遵循边界并自动停止。

工作原理

Spider 优先使用 HTTP 进行爬取，只有在页面确实需要 JavaScript 时才会启动无头 Chrome。HTTP 和 Chrome 路径中都内置了流式传输机制，因此页面会在获取到的第一时间返回，而不是等到最后才批量处理。这种设计提供了同类产品中最佳的并发吞吐量，能够支持极高的请求量，并且可以在相同的 API 上从单个异步任务无缝扩展到分布式工作节点集群。同时内置了代理、重试、速率限制和隐身模式。

安装

你需要……	运行
Rust 库	`cargo add spider`
命令行工具	`cargo install spider_cli`
Node.js 包	`npm i @spider-rs/spider-rs`
Python 包	`pip install spider_rs`
MCP server (Claude, Cursor, 等)	`cargo install spider_mcp`
托管式爬取	spider.cloud

配置

每个选项都有合理的默认值，因此只需配置你需要的设置即可。

let mut website = Website::new("https://example.com")
    .with_limit(50)                    // 并发请求数
    .with_depth(10)                    // 链接抓取深度
    .with_delay(500)                   // 请求间隔 (毫秒)
    .with_respect_robots_txt(true)
    .with_subdomains(true)
    .with_user_agent(Some("MyBot/1.0"))
    .with_stealth(true)
    .build()
    .unwrap();

完整参考请查看 Configuration 文档。

对于 JavaScript 密集型站点，请启用 features = ["chrome"] 并调用 crawl_smart()。Spider 会优先尝试 HTTP，仅在页面需要时才启动 Chrome。

使用场景

团队使用 Spider 将开放网络数据注入到用于 LLM 和 RAG 流水线的向量存储中，监控网站的 SEO 和价格变动，将页面导出为 Markdown、JSON 或 WARC，并驱动无头 Chrome 用于 AI 浏览代理。我们提供了 50 多个可运行示例供你参考。

了解更多

📚 指南：开发技巧与集成方案
📖 API 文档：所有选项与方法说明
💬 Discord：交流问题与想法
🐛 Issues：提交 Bug 与功能建议

贡献

欢迎提交 PR。请参阅 CONTRIBUTING.md。

cargo test -p spider                  # 单元测试
RUN_LIVE_TESTS=1 cargo test           # 实时网络测试

许可证

MIT。

spider-rs/spider