A list of AI agents and robots to block.
ai.robots.txt 是一个旨在收录各类 AI 爬虫标识的开源项目,为网站运营者提供了一份全面的封禁清单。通过该项目提供的多种配置文件,用户可以轻松防止未经授权的 AI 机器人抓取网站内容,从而保护网站隐私与数据安全。
该项目汇集了全面的 AI 爬虫名称列表,确保涵盖多种类型的自动化抓取行为。
提供 robots.txt 标准协议文件,兼容绝大多数搜索引擎和爬虫的抓取指令。
内置针对 Nginx、Apache、Caddy、HAProxy 及 Lighttpd 等主流 Web 服务器的封禁规则配置。
支持持续更新机制,鼓励开发者提交贡献以补充新的爬虫标识并完善相关性能指标。
适用于希望防止大模型厂商训练数据采集的网站开发者、站长及隐私关注者,可用于配置服务器层面的自动化访问限制。