作者:By Shayne Longprearchive page
我们经常将互联网视为理所当然。这是我们指尖的信息海洋,它只是有效的。但是,该系统依靠漫游网络的机器人群,每天访问数百万个网站,并报告他们看到的内容。这就是Google为搜索引擎提供动力,亚马逊如何设定有竞争力的价格以及皮划艇如何汇总旅行清单的方式。除了商业世界之外,爬行者对于监视网络安全,启用可访问性工具和保存历史档案是必不可少的。学术界,记者和公民社会也依靠他们进行重要的调查研究。
爬虫是地方性的。现在代表了所有互联网流量的一半,他们很快就会超过人类流量。昼夜不断地,网站到网站的网络渡轮信息看不见的地铁。最近,它们还提供了一个目的:OpenAi之类的公司使用了网上爬行的数据来训练他们的人工智能系统,例如Chatgpt。
可以理解的是,网站现在正在反击,因为担心这种入侵的物种AI爬行者会帮助他们取代它们。但是有一个问题:这种回压也威胁到网络的透明度和开放边界,使非AI应用程序蓬勃发展。除非我们考虑如何解决此问题,否则网络将越来越多地通过登录,付费墙和访问通行费来强化,不仅会抑制AI,而且会抑制真实用户和有用的爬网的生物多样性。
为了掌握这个问题,重要的是要了解网络的运作方式,直到最近,爬网和网站在相对共生中一起运行。爬行者在很大程度上是不间断的,甚至可能是有益的,将人们带到诸如Google或Bing等搜索引擎的网站上,以换取他们的数据。反过来,网站对爬行者施加了很少的限制,甚至可以帮助他们浏览网站。然后,网站和现在使用机器可读的文件,称为robots.txt文件,以指定他们想要爬网的内容。但是,很少有努力来执行这些规则或识别忽略它们的爬行者。赌注似乎很低,因此网站没有投资妨碍这些爬行者。
但是现在,人工智能的普及使爬虫生态系统陷入了混乱。
与入侵物种一样,AI的爬行者对数据的胃口不满意,不满意,提高了Wikipedia文章,学术论文以及Reddit,Review网站和博客的帖子。所有形式的数据都在菜单,表,图像,音频和视频上。并且结果的AI系统可以(但并非总是)以直接与其数据源竞争的方式使用。新闻网站担心AI聊天机器人会吸引他们的读者。艺术家和设计师担心AI图像生成器会引诱他们的客户。编码论坛担心AI代码生成器会取代其贡献者。
作为回应,网站开始在门口拖走爬行者。动机基本上是相同的:AI系统和为其动力的爬行者,可以通过使用网站自己的数据将内容发布到网络上的任何人的经济利益。这种认识激发了一系列爬行者的战争在地面下荡漾。
网络出版商已使用诉讼,立法和计算机科学的三项对AI做出了回应。最初是从一系列版权侵权西装开始的,其中包括一套纽约时报,变成了使用网站的限制浪潮数据以及立法,例如欧盟AI法保护版权所有者选择退出AI培训的能力。
但是,法律和立法判决可能需要数年,而AI采用的后果是立即的。因此,与此同时,数据创建者专注于收紧来源的数据水龙头:网络爬网。自2023年中期以来,网站已建立了爬行者的限制超过25%最高质量的数据。然而,这些限制中的许多都可以简单地忽略,而诸如Openai和Openai和人类确实声称尊重网站的限制,他们被指控无视他们或积极地压倒网站(主要的技术支持论坛ifixit是这样做的指控)。
现在,网站正在转向其最后一个选择:反爬行技术。众多新创业公司(Tollbit,Scalepost等)和CloudFlare等网络基础架构公司(估计支持20%的全球网络流量),已经开始提供工具检测,阻止和充电非人类流量。这些工具竖立了障碍物,使站点更难导航或要求爬行者进行注册。
这些措施仍然可以立即保护。毕竟,不管法院如何对版权和合理使用,AI公司都可以使用他们所能获得的。但效果是,大型的网络发布者,论坛和网站经常将吊桥提升到全部甚至那些没有构成威胁的人。一旦他们墨有利可图的交易与想要保留该数据的排他性的AI公司。最终,该网络被细分为欢迎更少的爬行者的领土。
随着这款猫和小型游戏的加速,大型玩家往往会超过小小的小玩家。大型科技公司有能力为大型数据集许可或创建强大的爬行者来规避限制。但是,小型创作者,例如视觉艺术家,YouTube教育者或博客作者,可能会觉得他们只有两种选择:将其内容隐藏在登录和付费墙后面,或者将其完全脱机。对于真实的用户,这使访问新闻文章,查看其最喜欢的创作者的内容变得更加困难,并且在每一步中都没有登录登录,订阅需求和CAPTCHAS,并导航网络。
也许更令人担忧的是与AI公司签订的大型独家合同正在细化网络。每笔交易都提高了该网站保持独家的动力,并阻止其他任何人访问数据竞争对手。这可能会导致更少的AI开发人员和数据出版商的进一步集中力量。只有大型公司才能许可或爬网关键网络数据会抑制竞争,并且无法为真实用户或许多版权持有人提供服务。
简而言之,遵循此路径将缩小网络的生物多样性。来自学术研究人员,记者和非AI应用程序的爬行者可能会越来越拒绝开放访问权限。除非我们可以针对不同的数据使用培养一个不同规则的生态系统,否则我们可能会在网络上严格存在严格的边界,从而确定开放性和透明度的价格。一个
尽管不容易避免此路径,但开放互联网的捍卫者可以坚持法律,政策和技术基础架构,这些法律,政策和技术基础架构明确保护对Web数据的非竞争用途,同时仍保护数据创建者和发布者。这些权利并不是矛盾的。我们从互联网上访问数据访问的斗争中有很多损失或收益。当网站寻找适应的方法时,我们必须在商业AI的祭坛上牺牲开放网络。
Shayne Longpre是麻省理工学院的博士候选人,他的研究重点是AI与政策的交集。他领导数据出处倡议。