艾德·科茨知道出了什么问题。他的在线数据库受到攻击。
Coates 是一名游戏设计师和游戏 UI 数据库的创建者。他热爱这项工作,花了五年时间整理了 56,000 多张视频游戏用户界面的屏幕截图。如果您想了解《辐射 3》中的生命条是什么样子,并将其与《荒野之息》中的库存屏幕进行比较,科茨可以满足您的要求。
他说,几周前,网站速度慢得像爬行一样。加载页面的时间延长了 3 倍,用户收到 502 错误网关错误,并且主页每秒重新加载 200 次。
“我认为这是某种小型的 DDoS 攻击,”科茨告诉《商业内幕》。
但当他检查系统日志时,他意识到大量流量来自 OpenAI 拥有的单个 IP 地址。
在打造世界上最先进人工智能的竞赛中,科技公司在网络上展开布局,像数字蝗虫瘟疫一样释放僵尸网络,在网站上搜寻任何可以用来为其贪婪模型提供动力的东西。
他们追求的通常是高质量的训练数据,但也包括其他可能帮助人工智能模型理解世界的信息。比赛的目的是在信息耗尽之前收集尽可能多的信息,否则规则会改变可接受的范围。
一项研究估计,到 2032 年,全球可用的人工智能训练数据供应可能会耗尽。人类经验记录的整个在线语料库可能很快就不足以让 ChatGPT 保持最新状态。
像游戏 UI 数据库这样的资源,人类已经完成了图像清理和分类的艰苦工作,看起来一定像自助餐。
对于资源有限的小型网站所有者来说,托管大量饥饿机器人的成本可能会带来巨大的负担。
“在 10 分钟内,我们传输了大约 60 到 70 GB 的数据,”管理托管 Coates 数据库的服务器的游戏设计师杰伊·皮特 (Jay Peet) 说道。“根据亚马逊的按需带宽定价,每天费用为 850 美元。”
科茨从游戏 UI 数据库中没有赚到钱,实际上该网站是亏损运营的,但他担心人工智能巨头的行为可能会危及那些依靠其网站谋生的独立创作者。
“OpenAI 的行为使我的网站瘫痪到停止运行的事实,这只是锦上添花,”他说。
OpenAI 发言人表示,该公司的机器人每秒大约查询科茨的网站两次。该代表还强调,OpenAI 正在抓取该网站,作为了解网络结构的一部分。它不是用来抓取数据的。
“我们让网络出版商可以轻松选择退出我们的生态系统,并表达他们对其网站和内容如何与我们的产品配合使用的偏好,”发言人补充道。“我们还构建了系统来检测和调节网站负载,以礼貌和体贴的网络参与者。”
数字产品工作室 Planetary 的创始人 Joshua Gross 告诉 BI,他在为一位客户重新设计网站后遇到了类似的问题。发布后不久,流量猛增,客户发现他们的云计算成本比前几个月翻了一番。
“对流量日志的审计显示,大量流量来自抓取机器人,”格罗斯说。他补充道:“问题主要在于人为因素驱动了大量无意义的流量。”他指的是重复的请求,所有这些请求都导致了 404 错误。
Anthropic 发言人詹妮弗·马丁内斯 (Jennifer Martinez) 表示,该公司努力确保其数据收集工作透明且不具有侵入性或破坏性。
格罗斯说,最终,他通过更新网站的 robots.txt 代码来阻止流量泛滥。Robots.txt 是自 20 世纪 90 年代末开始使用的协议,它让机器人爬虫知道他们可以去哪里和不能去哪里。它被广泛接受为网络的非官方规则之一。
针对人工智能公司的Robots.txt限制急剧增加。一项研究发现,2023 年 4 月至 2024 年 4 月期间,近 5% 的在线数据和约 25% 的最高质量数据添加了针对 AI 僵尸网络的 robots.txt 限制。
同一项研究发现,25.9% 的此类限制针对 OpenAI,而 Anthropic 为 13.3%,Google 为 9.8%。作者还发现,许多数据所有者在其服务条款中禁止抓取,但没有对 robots.txt 进行限制。这使得它们很容易受到仅依赖 robots.txt 的机器人进行不必要的抓取。
OpenAI 和 Anthropic 表示他们的机器人尊重 robots.txt,但 BI 报告了最近两家公司绕过限制的实例。
网络巨头 Akamai 负责欺诈和滥用行为的首席产品架构师 David Senecal 表示,他的公司跟踪由 Google、微软、OpenAI、Anthropic 等公司管理的 AI 训练僵尸网络。他表示,在 Akamai 用户中,这些机器人存在争议。
“网站所有者通常愿意让 Googlebot 或 Bingbot 等网络搜索引擎对他们的数据进行索引,”Senecal 说,“但是,有些人不喜欢他们的数据被用来训练模型。”
他说,一些用户抱怨云成本增加或流量增加导致的稳定性问题。其他人担心僵尸网络会带来知识产权问题或会“污染关键指标”,例如转化率。
当人工智能机器人一遍又一遍地涌入您的网站时,您的流量指标可能会与现实不符。这会给在线做广告并需要跟踪营销效果的网站带来问题。
Senecal 表示 robots.txt 仍然是管理不必要的爬行和抓取的最佳方式,尽管它是一个不完美的解决方案。它要求域名创建者知道他们想要阻止的每个机器人的具体名称,并且要求机器人操作员自愿遵守。最重要的是,Senecal 表示 Akamai 会跟踪各种伪装成 Anthropic 或 OpenAI 网络爬虫的“模仿者”机器人,这使得解析它们的任务变得更加困难。
塞内卡尔说,在某些情况下,僵尸网络每天都会爬行整个网站,只是为了看看发生了什么变化,这是一种生硬的方法,会导致大量重复数据。
“这种收集数据的方式非常浪费,”他说,“但在数据共享的思维方式发生变化以及更先进、更成熟的数据共享方式出现之前,抓取将保持现状。”
Roberto Di Cosmo 是 Software Heritage 的总监,这是一个非盈利数据库,其创建目的是“收集、保存和共享所有公开可用的源代码,以造福社会。”
Di Cosmo 表示,去年夏天,他看到人工智能僵尸网络前所未有地激增,正在抓取在线数据库,导致网站对某些用户失去响应。他的工程师花了数小时来识别数千个导致流量增加的 IP 地址并将其列入黑名单,从而将资源从其他重要任务上转移开。“我们不是 Google,我们运行此操作的资源有限,”Di Cosmo 说道。
他是开放获取的传播者,理论上并不反对人工智能公司使用数据库来训练模型。Software Heritage 已经与 Hugging Face 建立了合作伙伴关系,后者使用该数据库来帮助训练其人工智能模型 StarCoder2。
“开发包含这些数字公共资源的机器学习模型可以使软件创建民主化,使更广泛的受众能够从数字革命中受益,这一目标与我们的价值观一致,”迪科斯莫说,“但它必须在一种负责任的方式。”
Software Heritage 发布了一套原则,规定如何以及何时同意共享其数据。所有使用该数据库创建的模型都必须是开源的,而不是“为了私人利益而垄断”。如果底层代码的创建者愿意,他们必须能够选择退出。
“有时,这些人无论如何都会获取数据,”迪科斯莫说,他指的是逐一抓取数千亿网页的僵尸网络。
“由于人工智能机器人,我们已经离线了好几次,”非营利性赠款和慈善捐赠机会数据库 360Giving 的首席执行官塔尼亚·科恩 (Tania Cohen) 说道。
科恩表示,作为一个没有内部技术团队的小型慈善机构,流量的激增具有很大的破坏性。她说,更令人沮丧的是,许多信息可以通过其他方式轻松下载,不需要抓取。
但是饥饿的 AI 僵尸网络会先进行抓取,然后再提出问题。
Coates 表示他的游戏 UI 数据库已备份并正在运行,并且他将继续向其中添加内容。有数百万人像科茨一样,着迷于世界上的某个小角落,被迫投入数千小时去追求地球上其他人都找不到意义的追求。这是热爱互联网的原因之一。
这是社会中另一个受到人工智能革命连锁反应冲击的领域。小规模数据库运营商的服务器成本似乎不值得一提。但科茨的故事象征着一个更大的问题:当人工智能改变世界时,谁来承担成本?
科茨表示,他维护该数据库,作为其他游戏设计师的参考资料来源。他担心依赖于人类创造者工作的生成式人工智能将不可避免地取代那些同样的创造者。
“发现我的作品不仅被大型组织窃取,而且还用来伤害我试图帮助的人,这让我感到非常恶心,”科茨说。