人工智能爬虫正在攻击网站,几乎让它们离线 - Fast Company

2024-09-26 09:06:18 英文原文

7 月份,凯尔·维恩斯 (Kyle Wiens) 意识到出了问题,当时 iFixit(一家概述如何修理常见家居用品的网站)的员工开始收到有关手机流量过高的警报。该网站背后的开发团队开始研究跟踪其网络流量的工具(作为一个访问量较高的网站,iFixit 定期关注有多少人访问该网站)。维恩斯说,很明显它被堵塞了。

深入挖掘数据后,iFixit 员工意识到,在 24 小时多一点的时间里,他们在公司网站上收到了近一百万条查询,Wiens 称这个数字异常高。他们还能够确定导致问题的原因:原来是 Claude 聊天机器人的制造商 Anthropic 向世界发送了一个网络爬虫,以尝试收集训练数据。

Wiens 并不孤单:许多网站已经开始采取行动抵御爬虫,试图避免受到请求轰炸的负面影响。人工智能研究小组数据来源倡议 (DPI) 最近的一项分析显示,越来越多的网站对人工智能爬虫施加限制。在 DPI 分析中,来自爬虫程序调用的最关键 Web 域的大约四分之一的令牌已设置了限制。社交媒体上充斥着关于网络爬虫增加网站流量的投诉。

埃德·科茨是在网上提出担忧的人之一。他负责运营游戏 UI 数据库,这是一个从游戏中获取详细信息的数据库,旨在用作参考工具。该网站于八月初重新推出,吸引了大量访客热衷查看。但几周后,网站性能急剧下降,速度慢得像爬行一样。“我觉得这很奇怪,因为我们有大约四分之一的人在重新启动时访问了该网站,”科茨说。而且不知怎的,它运行得更慢。

科茨和他的网络开发人员检查了网站服务器日志,发现了问题的原因:OpenAI 的爬虫正在攻击该网站。他说,他们对网站的攻击非常猛烈。大约每秒 200 次。OpenAI 并未对其 GPTBot 爬虫访问游戏 UI 数据库提出异议,但对其爬虫访问网站的频率规模提出了质疑,有证据表明每秒的查询数量仅为 3 左右。

OpenAI 发言人告诉 Fast Company:我们使出版商能够使用行业标准工具来表达对其网站访问的偏好。通过使用 robots.txt,发布商可以设置时间延迟并减少系统负载,选择仅允许访问某些页面或目录,或完全退出。他们更新了我们机器人的 robots.txt 指令后,我们就停止访问该网站,因为我们的系统认识到并尊重这一点。

尽管如此,科茨还是感受到了影响。他声称,他们每天基本上从我们这里窃取了 80 [GB] 的数据,或者类似的疯狂数据。(OpenAI 再次不同意这一点。)游戏 UI 数据库托管在自己的服务器上,但 Coates 估计,他所声称的 OpenAI 爬虫访问该网站后产生的流量水平将使他每年损失约 800 英镑(1,000 美元)。如果他是商业网络托管提供商的一天。

关于《人工智能爬虫正在攻击网站,几乎让它们离线 - Fast Company》的评论


暂无评论

发表评论

摘要

7 月份,凯尔·维恩斯 (Kyle Wiens) 意识到出了问题,当时 iFixit(一家概述如何修理常见家居用品的网站)的员工开始收到有关手机流量过高的警报。维恩斯并不孤单:许多网站已经开始采取行动抵御爬虫,试图避免受到请求轰炸的负面影响。“我觉得这很奇怪,因为我们有大约四分之一的人在重新启动时访问了该网站,”科茨说。科茨和他的网络开发人员检查了网站服务器日志,发现了问题的原因:OpenAI 的爬虫正在攻击该网站。他声称,他们每天基本上从我们这里窃取了 80 [GB] 的数据,或者类似的疯狂数据。(