© 2026FindAgent  · @simprr
返回列表
a

ai-robots-txt/ai.robots.txt

A list of AI agents and robots to block.

aicrawlerscrawlingprivacy
⭐

3.8k

Stars

🔱

150

Forks

👁

56

Watchers

📋

8

Issues

PythonMIT创建于 2024/3/27更新于 今天
在 GitHub 上查看访问主页
README
由 Gemini 翻译整理

ai.robots.txt

此列表包含了各类 AI 相关的爬虫,无论其用途为何。我们鼓励您通过贡献此列表,并将其应用到您自己的网站中。请查看有关所列爬虫的信息以及 FAQ。

其中许多爬虫信息来源于 Dark Visitors,我们感谢他们为跟踪这些爬虫所付出的持续努力。

如果您想向列表中添加爬虫信息,请提交一个 Pull Request,并在 robots.txt、ai.txt 中添加机器人名称,同时在 table-of-bot-metrics.md 中提供相关详情,以帮助用户了解正在抓取其网站的内容。

使用方法

本仓库提供了以下文件:

  • robots.txt
  • .htaccess
  • nginx-block-ai-bots.conf
  • Caddyfile
  • haproxy-block-ai-bots.txt
  • lighttpd-block-ai-bots.conf

robots.txt 实现了 Robots Exclusion Protocol (RFC 9309)。

.htaccess 可用于配置 Apache httpd 等 Web 服务器,以便在所列 AI 爬虫向服务器发送请求时返回错误页面。 请注意,正如 httpd 文档中所述,存在比 .htaccess 文件性能更高的方法。

nginx-block-ai-bots.conf 实现了一个 Nginx 配置片段,可以通过 include 指令包含在任何虚拟主机的 server {} 块中。

Caddyfile 包含一个 Header Regex 匹配器组,您可以将其复制或导入到您的 Caddyfile 中,随后即可通过 abort @aibots 处理拒绝请求。

haproxy-block-ai-bots.txt 可用于配置 HAProxy 以拦截 AI 机器人。实现步骤如下:

  1. 将该文件添加到 HAProxy 的配置目录中
  2. 在 frontend 部分添加以下行:
    acl ai_robot hdr_sub(user-agent) -i -f /etc/haproxy/haproxy-block-ai-bots.txt
    http-request deny if ai_robot
    
    (请注意,haproxy-block-ai-bots.txt 的路径在您的环境中可能会有所不同。)

lighttpd-block-ai-bots.conf 可以通过 include "fragments/lighttpd-block-ai-bots.conf" 包含在您的 lighttpd 配置中,可全局使用或在任何条件块中使用。

Bing 使用其抓取的数据进行 AI 和模型训练,您可以通过在网站的 head 中添加 meta 标签来选择退出。

相关资源

  • Robots.txt Traefik 插件:用于 Traefik 的中间件插件,可动态自动添加 robots.txt 规则。

  • 或者,您可以手动配置 Traefik以集中提供静态 robots.txt 文件。

如何贡献

关于贡献的说明:更新应在 robots.json 中添加或进行。GitHub Action 会自动生成更新后的 robots.txt、table-of-bot-metrics.md、.htaccess 和 nginx-block-ai-bots.conf。

您可以通过安装 Python 3 并安装依赖项来运行测试:

pip install -r requirements.txt

然后运行:

code/tests.py

.editorconfig 文件为本项目提供了标准的编辑器选项。详情请参阅 EditorConfig。

发布版本

管理员可以通过以下方式发布新版本 v1.n(其中 n 是当前版本的小版本号增量):

  • 前往 GitHub 上的 新发布页面。
  • 点击 Select tag,选择 Create new tag,在弹出窗口中输入 v1.n,然后点击 Create。
  • 输入合适的发布标题(例如 v1.n: adds user-agent1, user-agent2)。
  • 点击 Generate release notes。
  • 点击 Publish release。

随后 GitHub Action 会将 robots.txt 资产添加到发布版本中。操作完成。

订阅更新

您可以通过 RSS/Atom 订阅发布 Feed 来获取列表更新:

https://github.com/ai-robots-txt/ai.robots.txt/releases.atom

您可以使用 Feedly、Inoreader、The Old Reader、Feedbin 或任何其他阅读器应用进行订阅。

或者,您也可以通过 GitHub 账户订阅新版本:点击页面顶部的“Watch”按钮旁边的 ⬇️,点击“Custom”,然后选择“Releases”。

使用 RSL 授权内容

您也可以使用 Really Simple Licensing 在 robots.txt 中将您的内容授权给 AI 公司。

贡献者
cgCfMnnfsj
项目信息
默认分支main
LicenseMIT License
创建时间2024/3/27
最近更新今天
GAI 中文摘要

ai.robots.txt 是一个旨在收录各类 AI 爬虫标识的开源项目,为网站运营者提供了一份全面的封禁清单。通过该项目提供的多种配置文件,用户可以轻松防止未经授权的 AI 机器人抓取网站内容,从而保护网站隐私与数据安全。

该项目汇集了全面的 AI 爬虫名称列表,确保涵盖多种类型的自动化抓取行为。

提供 robots.txt 标准协议文件,兼容绝大多数搜索引擎和爬虫的抓取指令。

内置针对 Nginx、Apache、Caddy、HAProxy 及 Lighttpd 等主流 Web 服务器的封禁规则配置。

支持持续更新机制,鼓励开发者提交贡献以补充新的爬虫标识并完善相关性能指标。

适用于希望防止大模型厂商训练数据采集的网站开发者、站长及隐私关注者,可用于配置服务器层面的自动化访问限制。