Cloudflare 加强对吞噬网站的 AI 机器人的监管 - The Register

Cloudflare 加强对吞噬网站的 AI 机器人的控制

当 robots.txt 不切实际时

Cloudflare 周一扩大了对黑暗艺术的防御通过为客户提供对不受欢迎的内容袭击的更多可见性和控制力，人工智能网络抓取工具得到了广泛应用。

今年早些时候，网络公司部署了一键式人工智能机器人防御，以改善不太有效的情况robots.txt 机制，网站可以询问（但不要求）机器人的行为。

Cloudflare 现在正在使用 AI 审核控制面板升级其武器库。

这个想法是为客户提供有关爬虫的分析数据，爬虫收集数据以进行人工智能训练和推理，以便就是否接受机器人或拒绝它们做出更好的决策。

“一些客户已经决定直接谈判交易与人工智能公司合作，”Cloudflare 新兴技术和孵化团队成员 Sam Rhea 解释道。“其中许多合同都包含有关扫描频率和可访问内容类型的条款。我们希望这些出版商拥有衡量这些交易实施情况的工具。”

Rhea 表示问题所在人工智能机器人的出现使得确定以程序方式访问网站是有益还是滥用变得更加复杂。虽然它们没有进行拒绝服务攻击，但捕获站点数据以训练 AI 模型或提供 AI 搜索结果的机器人仍然可能构成业务威胁。

“AI Data Scraper 机器人会扫描您的内容。培训新大语言模型的网站，”雷亚说。“然后，您的材料会被放入一种混合器中，与其他内容混合，并用于回答用户提出的问题，无需归属或不需要用户访问您的网站。”

正如软件开发人员西蒙·威利森(Simon Willison)所描述的那样，人工智能培训类似于“为受版权保护的数据洗钱”。由于 OpenAI 和 Anthropic 等公司没有披露用于创建模型的训练数据，因此人工智能本质上是内容洗钱。它类似于加密货币混合器，旨在掩盖加密货币来源的过程。

然后，人工智能搜索爬虫机器人可以扫描内容并引用它以响应搜索查询。“缺点是这些用户可能只是停留在该界面内，而不是访问您的网站，因为答案是在他们面前的页面上组装的，”Rhea 说。

也就是说，人工智能搜索可能不会为源网站带来流量，因此不会提供广告收入。今年夏天，当 iFixit 首席执行官凯尔·维恩斯 (Kyle Wiens) 反对 Anthropic 的爬虫收集数据时，这个问题就出现了，该人工智能公司后来解决了这个问题。

Rhea 认为，允许人工智能机器人猖獗会威胁到开放互联网。

“如果没有控制扫描和实现价值的能力，网站所有者将不愿意启动或维护互联网资产，”他说。“创作者将把更多的内容隐藏在付费墙后面，最大的出版商将达成直接交易。反过来，人工智能模型提供商将难以在较小的网站上寻找和访问高质量内容的长尾。”

进入 Cloudflare 的 AI Audit 控制面板。该网络公司认为，公司可以使用提供的机器人分析来监控与人工智能公司的内容访问交易（据称这种情况正变得越来越普遍），并执行策略，而不是信任爬虫遵守 robots.txt 指令。