互联网基础设施公司 Cloudflare 正在推出一套工具,可以帮助改变人工智能公司与其抓取数据的网站之间的权力动态。如今,它为所有客户(包括大约 3300 万使用其免费服务的客户)提供了监控和选择性阻止 AI 数据抓取机器人的能力。
这种预防措施以一套免费的人工智能审核工具的形式出现,它被称为机器人管理,其中第一个允许实时机器人监控。客户将可以访问仪表板,显示哪些人工智能爬虫正在访问他们的网站并抓取数据,包括那些试图伪装其行为的爬虫。
Cloudflare 联合创始人兼首席执行官 Matthew Prince 在公司位于葡萄牙里斯本的欧洲总部接受《连线》采访时说道,即使它们试图隐藏自己的身份,我们也给所有人工智能爬虫贴上了标签。
Cloudflare 还推出了扩展的机器人阻止服务,客户可以选择阻止所有已知的 AI 代理,或阻止某些代理并允许其他代理。今年早些时候,Cloudflare 推出了一款工具,允许客户一次性阻止所有已知的 AI 机器人;这个新版本提供了更多控制来选择他们想要阻止或允许的机器人。它是一把凿子而不是大锤,随着出版商和平台与人工智能公司达成允许机器人自由漫游的协议,它变得越来越有用。
普林斯说,我们希望让任何人都能轻松控制人工智能机器人如何使用其内容,无论其预算或技术复杂程度如何。Cloudflare 根据机器人的功能对其进行标记,因此用于抓取训练数据的 AI 代理与为较新的搜索产品(例如 OpenAIs SearchGPT)提取数据的 AI 代理是不同的。
网站通常会尝试通过更新名为“机器人排除协议”或 robots.txt 的文本文件来控制人工智能机器人抓取数据的方式。几十年来,该文件一直控制着机器人抓取网络的方式。忽略 robots.txt 并不违法,但在人工智能时代之前,它通常被认为是网络社交代码的一部分,以遵守文件中的指令。自从人工智能抓取代理涌入以来,许多网站都试图通过编辑 robots.txt 文件来减少不必要的抓取。像人工智能代理看门狗“黑暗访客”这样的服务提供了一些工具,帮助网站所有者掌握他们可能想要阻止的不断增加的爬虫数量,但它们受到一个重大漏洞的限制:不道德的公司往往会简单地忽略或逃避机器人。txt 命令。
根据黑暗访客创始人 Gavin King 的说法,大多数主要的 AI 代理仍然遵守 robots.txt。他说,这非常一致。但并非所有网站所有者都有时间或知识来不断更新其 robots.txt 文件。即使这样做,一些机器人也会绕过文件指令:他们试图掩盖流量。
Prince 表示,此类不良行为者不会忽视 Cloudflares 机器人拦截命令。他说,Robots.txt 就像张贴禁止侵入的标志。这就像有一堵由武装警卫巡逻的实体墙。正如它标记其他类型的可疑网络行为(例如用于非法价格监控的价格抓取机器人)一样,该公司也创建了流程来发现即使是最精心隐藏的人工智能爬虫。
Cloudflare 还宣布即将推出一个市场,供客户与 AI 公司协商抓取使用条款,无论是使用内容付费还是以物易物以使用 AI 服务的积分来换取抓取。普林斯说,我们并不真正关心交易是什么,但我们确实认为需要某种方式将价值回馈给原创内容创作者。补偿不一定是美元。补偿可以是信用或认可。它可以是很多不同的东西。
该市场的启动日期尚未确定,但即使它在今年推出,它也将加入一个日益拥挤的项目领域,这些项目旨在促进人工智能公司、出版商、平台和其他网站之间的许可协议和其他许可安排.人工智能公司对此有何看法?普林斯说,我们已经与他们中的大多数人进行了交谈,他们的反应各不相同,从“这是有道理的”到“愿意见鬼去吧”。(不过,他没有透露姓名。)
该项目的周转速度相当快。Prince 引用了与 Atlantic 首席执行官(也是《连线》杂志前主编)Nick Thompson 的一次谈话作为该项目的灵感;汤普森讨论了有多少不同的出版商遇到了秘密的网络抓取工具。“我喜欢他这样做,”汤普森说。普林斯认为,如果连知名媒体机构都难以应对大量涌入的抓取者,那么独立博主和网站所有者的困难就会更大。
Cloudflare 多年来一直是领先的网络安全公司,它提供了支撑网络的大部分基础设施。它历来对其服务的网站内容保持尽可能中立;在极少数情况下,该规则会例外,Prince 强调他不希望 Cloudflare 成为在线允许内容的仲裁者。
在这里,他认为 Cloudflare 具有独特的立场来表明立场。普林斯说,我们所走的道路是不可持续的。希望我们能够参与确保人们的工作获得报酬。