ai.robots.txt

此列表包含了各类 AI 相关的爬虫，无论其用途为何。我们鼓励您通过贡献此列表，并将其应用到您自己的网站中。请查看有关所列爬虫的信息以及 FAQ。

其中许多爬虫信息来源于 Dark Visitors，我们感谢他们为跟踪这些爬虫所付出的持续努力。

如果您想向列表中添加爬虫信息，请提交一个 Pull Request，并在 robots.txt、ai.txt 中添加机器人名称，同时在 table-of-bot-metrics.md 中提供相关详情，以帮助用户了解正在抓取其网站的内容。

使用方法

本仓库提供了以下文件：

robots.txt 实现了 Robots Exclusion Protocol (RFC 9309)。

.htaccess 可用于配置 Apache httpd 等 Web 服务器，以便在所列 AI 爬虫向服务器发送请求时返回错误页面。请注意，正如 httpd 文档中所述，存在比 .htaccess 文件性能更高的方法。

nginx-block-ai-bots.conf 实现了一个 Nginx 配置片段，可以通过 include 指令包含在任何虚拟主机的 server {} 块中。

Caddyfile 包含一个 Header Regex 匹配器组，您可以将其复制或导入到您的 Caddyfile 中，随后即可通过 abort @aibots 处理拒绝请求。

haproxy-block-ai-bots.txt 可用于配置 HAProxy 以拦截 AI 机器人。实现步骤如下：

lighttpd-block-ai-bots.conf 可以通过 include "fragments/lighttpd-block-ai-bots.conf" 包含在您的 lighttpd 配置中，可全局使用或在任何条件块中使用。

关于贡献的说明：更新应在 robots.json 中添加或进行。GitHub Action 会自动生成更新后的 robots.txt、table-of-bot-metrics.md、.htaccess 和 nginx-block-ai-bots.conf。

您可以通过安装 Python 3 并安装依赖项来运行测试：

pip install -r requirements.txt

然后运行：

code/tests.py

.editorconfig 文件为本项目提供了标准的编辑器选项。详情请参阅 EditorConfig。

管理员可以通过以下方式发布新版本 v1.n（其中 n 是当前版本的小版本号增量）：

随后 GitHub Action 会将 robots.txt 资产添加到发布版本中。操作完成。

您可以通过 RSS/Atom 订阅发布 Feed 来获取列表更新：

https://github.com/ai-robots-txt/ai.robots.txt/releases.atom

您可以使用 Feedly、Inoreader、The Old Reader、Feedbin 或任何其他阅读器应用进行订阅。

或者，您也可以通过 GitHub 账户订阅新版本：点击页面顶部的“Watch”按钮旁边的 ⬇️，点击“Custom”，然后选择“Releases”。

您也可以使用 Really Simple Licensing 在 robots.txt 中将您的内容授权给 AI 公司。