Cloudflare的人工智能审计帮助网站战胜机器人

2024-10-06 07:00:00 英文原文

作者:Matthew S. Smith

现代的生成式AI如模型这样的大型语言模型它们是基于从网上自动抓取的大量数据进行训练的。Cloudflare,全球最大的内容分发网络(CDN)之一推出了一个打击恶意软件的工具:AI审计。

于9月23日启动测试版并面向Cloudflare客户全面开放的AI审计功能,为网站所有者提供了了解访问其网站的人工智能机器人活动的新途径。他们可以看到哪些人工智能模型提供商正在访问他们的内容,并决定是否允许或阻止这些访问。未来,Cloudflare计划帮助内容所有者设定一个公平的价格,要求人工智能机器人在爬取网站内容时支付该费用。

“我们在Cloudflare设立了一个目标,即帮助构建一个更好的互联网。一个能够发布优质内容并建立优质社区的互联网,”他说道。萨姆·里亚Cloudflare 的新兴技术副总裁说:“但让我们感到担忧的是,某些人工智能应用场景可能会使这一点受到威胁。”

防止不必要的机器人流量的新保护措施

许多网站试图管理不需要的机器人通过robots.txt阻止一个指示爬虫在抓取网站时如何行为的文件。但这并非万无一失:爬虫可以简单地忽略这些指令。

Cloudflare 的 AI 审计不依赖于 robots.txt,而是使用公司的web应用防火墙,一项可以自动识别网络流量来源的服务。虽然它可能最出名的是它的防御分布式拒绝服务(DDoS)攻击使用机器人网络向受害者发送请求进行攻击的情况下,防火墙也可以识别出如大型AI公司使用的机器人。开放人工智能(OpenAI).

为AI机器人提供网页的服务负担通常不会影响资金充足的大型网站。SourceForge和SlashDot的总裁Logan Abbott表示,这两家网站“每个月会看到数千万次的AI爬虫访问”,但它们已经具备了处理这种负载的基础设施。

然而,对于小型公司和个体拥有的网站来说,机器人可能会成为一个问题。 binge钟一个帮助电视超级粉丝追踪他们观看的节目(以及观看这些节目的时间)的网站,被迫增加了服务器资源来处理机器人对该网站造成的影响。

A screenshot of the Cloudflare interface. The interface is a table of traffic sources. It includes a summary that identifies bots visiting the website. Cloudflare的AI审计提供数据分析来追踪和阻止AI机器人。Cloudflare

所以整个夏天,我都在额外增加[MAXIMUM字符限制内未给出完整句子,无法提供准确翻译,请检查并提供完整的英文文本以进行翻译。]亚马逊“由于我发现网站对实际用户已经无法使用,我为我的API创建了Web服务实例,”他说。比利·加德纳·麦金泰尔,一名自由职业的开发者和作家,独自运营着BingeClock。大型网站可能会通过动态负载均衡来处理这个问题,这种机制会根据需要自动启动新的实例。但这种方法会导致服务成本出现不可预测的波动,这对经营小型网站和企业的个人来说是存在一定风险的。

Cloudflare的AI审计给麦金泰尔带来了缓解。谁在BingeClock的工程博客上写了他的经历他注意到不想要的人工智能流量大幅减少。“如果我在Cloudflare上查看AI审计仪表板,自从这个工具推出以来,根本没有人工智能相关的流量。”麦金泰尔说。

阿博特也对AI审计持积极态度。“能够对所有这些内容有一个清晰的视角真是太好了,”他说。

在AI审计发布之前,BingeClock需要多达六台AWS实例来处理流量。现在减少到了五台,并且如果机器人流量的减少持续下去,麦金泰尔认为他可以进一步削减到最少两台。

Cloudflare能否让AI机器人支付费用?

阻止机器人是AI审计最直接的影响,但Cloudflare希望更进一步:该公司希望通过AI审计帮助网站所有者在内容被爬取时获得赔偿。

多家出版商,包括新闻集团、Vox和康泰纳仕,已与OpenAI签署了协议,允许这家人工智能公司访问他们的内容。Rhea表示,AI审计可以在促进和监管此类交易中发挥作用。“Cloudflare希望为出版商提供一定程度的透明度、可审核性和控制权,”Rhea说道。

对于较小的网站,Cloudflare希望引入无缝的价格设定和交易流程。理论上,这可以让小型站点所有者与希望通过爬取其内容进行AI训练的公司达成协议。然而,目前还没有发布此货币化工具的具体日期。

麦金泰尔虽然对AI审计妨碍机器人程序的能力感到满意,但他对AI审计为小型网站带来的经济效益持怀疑态度。“无论付款计划是什么,我认为金额不会很高。我只是看不出他们如何实现盈利。我希望能被证明是错的。”麦金泰尔说道。

类似AI审计这样的工具也可能引发关于隐私和安全的关注。开放互联网的侵蚀. Cloudflare的博客文章演示AI审计列出由非营利组织Common Crawl和The Internet Archive使用的机器人。创建一个工具来向AI机器人收费可能会导致网站所有者询问还有哪些人能够支付费用。

丽娅表示,Cloudflare 没有打算将 AI 审计作为通用工具来更广泛地控制或阻止流量。“这是一个有趣的问题,但我们根本没有考虑过这一点……我们非常专注于扫描和爬取来自机器人的内容。”

关于《Cloudflare的人工智能审计帮助网站战胜机器人》
暂无评论

摘要

现代的生成式AI模型,如大型语言模型,是在海量数据上训练出来的,其中许多数据是由机器人自主从网络上抓取的。但这并不是万无一失:机器人可以简单地忽略这些指令。Cloudflare 能让 AI 机器人付费吗?阻止机器人是 AI 审计最直接的影响,但 Cloudflare 希望更进一步:该公司希望 AI 审计可以帮助网站所有者在内容被爬取时获得赔偿。虽然麦金泰尔对 AI 审计阻碍机器人的能力感到满意,但他对于较小的网站来说,AI 审计能带来的金钱价值表示怀疑。“创建一个向 AI 机器人收取访问费用的工具可能会导致网站所有者质疑还有谁可以付费。”