2024-12-10
3 分钟阅读
Cloudflare 的人工智能审计仪表板可让您轻松了解人工智能公司和服务如何访问您的内容。AI Audit 提供机器人分解的请求计数摘要、详细路径摘要以获取更精细的见解,以及按类别过滤的能力,例如人工智能搜索或者人工智能爬虫。
今天,我们更进一步。现在,您可以快速查看哪些 AI 服务遵守您的 robots.txt 政策,哪些不遵守,然后以编程方式强制执行这些政策。
机器人.txt是托管在您的域上的纯文本文件,它实现了机器人排除协议,自 1994 年以来一直存在的标准。此文件告诉 Google、Bing 和许多其他爬虫程序,它们可以访问您网站的哪些部分(如果有)。
网站所有者想要定义允许爬虫访问其网站的哪些部分的原因有很多:他们可能不希望搜索引擎或社交网络上提供某些内容,他们可能比另一个平台更信任一个平台,或者他们可能只是想要减少服务器的自动流量。
随着生成式人工智能,人工智能服务已经开始爬行互联网来收集其模型的训练数据。这些模型通常是专有的和商业的,用于生成新内容。除了传统的搜索引擎之外,许多想要控制其内容使用方式的内容创建者和发布商已开始使用 robots.txt 来声明涵盖这些人工智能机器人的政策。
以下是来自顶级在线新闻网站的 robots.txt 政策的真实世界缩略示例:
用户代理:GPTBot禁止:/用户代理:ChatGPT-User禁止:/用户代理:anthropic-ai禁止:/用户代理:Google 扩展禁止:/用户代理:Bytespider禁止:/
该政策声明新闻网站不希望 ChatGPT、Anthropic AI、Google Gemini 或字节跳动的 Bytespider 抓取其任何内容。
从自愿遵守到强制执行
遵守机器人排除协议历来都是自愿的。”
这就是我们的新功能的用武之地。我们已经扩展了人工智能审计让我们的客户了解 AI 服务提供商如何遵守其 robots.txt 政策和能够在您的网络级别执行这些策略WAF.�
您的 robots.txt 文件声明了您的政策,但现在我们可以帮助您执行该政策。您甚至可以称其为“您的机器人警察”。
AI Audit 从您的网络媒体资源中获取 robots.txt 文件,对其进行解析,然后将其规则与我们看到的所选媒体资源的 AI 机器人流量进行匹配。摘要表为您提供了我们在所有路径上看到的每个机器人的请求和违规数量的聚合视图。如果您将鼠标悬停在 Robots.txt 列上,我们将在工具提示中向您显示为每个机器人定义的策略。您还可以从页面顶部按违规行为进行过滤。
在“最受欢迎的路径”部分中,每当您网站中的路径获得违反您政策的流量时,我们都会对其进行标记以供可见。理想情况下,您不会在 Robots.txt 列中看到违规行为 - 如果您确实看到违规行为,则表明有人不遵守规定。
但这还不是全部……更重要的是,AI Audit 允许您在网络级别强制执行 robots.txt 策略。通过按摘要表顶部的“强制执行 robots.txt 规则”按钮,我们会自动将 robots.txt 中为 AI 机器人定义的规则转换为高级防火墙规则,将您重定向到 WAF 配置屏幕,并允许您在我们的网络中部署规则。
这是上面提到的 robots.txt 策略翻译后的样子:
一旦您部署了根据 robots.txt 策略构建的 WAF 规则,您就不再简单地要求 AI 服务尊重您的策略,而是强制执行它。
通过 AI Audit,我们让客户能够更清楚地了解 AI 服务如何访问其内容,帮助他们定义策略,然后在网络级别执行这些策略。
此功能现已面向所有 Cloudflare 客户推出。只需登录仪表板并导航到您的域即可开始审核来自 AI 服务的机器人流量并执行 robots.txt 指令。
Cloudflare 的连接云保护整个企业网络,帮助客户构建高效的互联网规模应用,加速任何网站或互联网应用程序,抵御 DDoS 攻击, 保持黑客陷入困境,并且可以帮助您您的零信任之旅。
访问1.1.1.1从任何设备开始使用我们的免费应用程序,让您的互联网更快、更安全。