该公司悄悄向人工智能开发者提供付费文章

2025-11-04 12:00:00 英文原文

作者:Alex Reisner

编者注:本作品是人工智能看门狗,大西洋报– 对生成型人工智能行业正在进行的调查。


时间共同爬行基金会在硅谷之外鲜为人知。十多年来,该非营利组织一直在抓取数十亿个网页,以建立庞大的互联网档案。该数据库的大小足以以 PB 为单位免费提供用于研究。然而,近年来,这个档案被用于一个有争议的用途:包括 OpenAI、谷歌、Anthropic、Nvidia、Meta 和亚马逊在内的人工智能公司都用它来训练大型语言模型。我的报告发现,在此过程中,Common Crawl 为人工智能公司打开了后门,让他们可以使用主要新闻网站的付费文章来训练他们的模型。该基金会似乎在这方面向出版商撒了谎,并掩盖了其档案的实际内容。

Common Crawl 并未公开过多表示其对 LLM 发展的支持。自 2010 年代初以来,研究人员已将 Common Crawl 的集合用于多种目的:构建机器翻译系统、跟踪药物的非常规用途通过分析在线论坛中的讨论并研究禁书除其他外,在各个国家。Common Crawl 创始人 Gil Elbaz 在 2012 年的一次采访中表示其档案表明——我们只需确保人们以正确的方式使用它。合理使用意味着您可以利用世界上的数据做某些事情,只要人们尊重这一点并尊重这些数据的版权,那么一切都很好。”

Common Crawl 网站它在互联网上搜寻“免费提供的内容”,而不会“躲在任何“付费墙”后面。然而,该组织已经从主要新闻网站上获取了人们通常需要付费的文章,从而允许人工智能公司免费培训其法学硕士进行高质量的新闻报道。与此同时,Common Crawl 的执行董事 Rich Skrenta 公开表示,人工智能模型应该能够访问互联网上的任何内容。“机器人也是人,”他告诉我,因此应该被允许免费“阅读书籍”。多家新闻出版商已要求 Common Crawl 删除他们的文章,以防止这种用途。Common Crawl 表示它符合这些要求。但我的研究表明事实并非如此。

我发现 Common Crawl 下载的页面出现在数千个 AI 模型的训练数据中。正如 Mozilla 前研究员 Stefan Baack 所说,已写,“如果没有 Common Crawl,当前形式的生成式 AI 可能是不可能实现的。”2020 年,OpenAI 使用 Common Crawl 的档案来训练 GPT-3。开放人工智能声称该程序可以生成“人类评估者很难区分人类撰写的新闻文章”,并且在 2022 年,该模型的迭代 GPT-3.5 成为 ChatGPT 的基础,开启了正在进行的生成人工智能热潮。许多不同的人工智能公司现在正在使用出版商的文章来训练总结和解释新闻的模型,并以以下方式部署这些模型:窃取读者来自作家和出版商。

Common Crawl 坚称自己没有做错任何事。在报道这个故事时,我与 Skrenta 进行了两次交谈。在第二次谈话中,我问他基金会在出版商要求停止后仍将新闻文章归档的情况。Skrenta 告诉我,这些出版商犯了一个错误,他们将自己排除在“搜索 2.0”之外(指的是现在广泛用于在线查找信息的生成式人工智能产品),并表示,无论如何,首先是出版商提供了他们的作品。“如果你不希望内容出现在互联网上,就不应该将其放到互联网上,”他说。C

普通抓取未登录其抓取的网站,但其抓取工具不受新闻出版商使用的某些付费专区机制的影响。例如,在许多新闻网站上,您可以在网络浏览器执行付费墙代码之前简要查看任何文章的全文,该代码检查您是否是订阅者,如果不是订阅者则隐藏内容。Common Crawl 的抓取工具从不执行该代码,因此它会获取完整的文章。因此,据我估计,该基金会的档案包含来自世界各地新闻机构的数百万篇文章,包括经济学人, 的洛杉矶时报,华尔街日报,纽约时报,纽约客,哈泼斯出版社, 和大西洋报

一些新闻出版商已经意识到 Common Crawl 的活动,还有一些通过在其网站代码中添加指令来阻止该基金会的抓取。在过去的一年里,Common Crawl 的 CCBot 已成为最广泛堵塞的刮刀排名前 1,000 的网站,甚至超过了为 ChatGPT 收集内容的 OpenAI 的 GPTBot。然而,阻止只能防止未来的内容被抓取。它不会影响 Common Crawl 已收集并存储在其档案中的网页。

2023 年 7 月,纽约时报向 Common Crawl 发送通知,要求删除之前抓取的内容时代内容。(在针对 OpenAI 的诉讼中,时代 注意到Common Crawl 包含“至少 1600 万条独特的内容记录”时代网站。)该非营利组织似乎同意了这一要求。同年11月,一时代发言人查理·施塔特兰德,告诉 商业内幕:“我们只是要求删除我们的内容,很高兴 Common Crawl 遵守了要求。”

但当我探索 Common Crawl 的档案时,我发现许多时代文章似乎仍然存在。当我向时代,Stadtlander 告诉我:“我们从他们那里了解到,他们已经删除了大部分时代— 内容,并继续致力于完全删除。 —

丹麦版权联盟 (DRA) 是一个代表丹麦出版商和其他版权所有者的组织,它告诉我与 Common Crawl 的类似互动。该组织的内容保护和执行主管托马斯·赫尔德鲁普 (Thomas Heldrup) 向我展示了一份自 2024 年 7 月开始与该非营利组织进行编辑的电子邮件往来,其中 DRA 要求将其成员的内容从存档中删除。2024 年 12 月,即 DRA 最初请求删除六个多月后,Common Crawl 的律师写道:“我确认 Common Crawl 已开始从数据存档中删除您的会员内容。”目前,大约 50% 的内容已被删除。 – 我与其他从 Common Crawl 收到类似消息的发布商进行了交谈。有人被告知,经过多封后续电子邮件后,删除已完成 50%、70%,然后是 80%。

通过编写代码来浏览 PB 级的数据,我能够看到来自时代、DRA 和其他出版商仍然存在于 Common Crawl 的档案中。此外,这些文件存储在一个记录每个文件修改时间的系统中。该基金会每隔几周就会在其档案中添加一个新的“爬行”,每个包含 10 亿到 40 亿个网页,并且自 2013 年以来一直定期发布这些内容。自 2016 年以来,Common Crawl 档案中的所有内容文件似乎都没有被修改过,这表明至少九年来没有内容被删除。

在我们的第一次谈话中,斯克伦塔告诉我,移除请求是“一件令人痛苦的事情”,但他坚称基金会会遵守这些请求。在我们的第二次谈话中,斯克伦塔更加坦诚。他表示,Common Crawl 正在“认真努力”删除内容,但 Common Crawl 存储其档案的文件格式意味着“是不可变的”。您无法从中删除任何内容。”(他没有回答我关于 50%、70% 和 80% 删除数据来自何处的问题。)

然而,该非营利组织似乎向其网站的访问者隐瞒了这一点,其中搜索功能是查看 Common Crawl 档案中内容的唯一非技术工具,它会返回某些域的误导性结果。寻找纽约时报网从 2013 年到 2022 年的任何爬网中,该爬网都会显示“无捕获”结果,而实际上大多数爬网中都有来自 NYTimes.com 的文章。我还发现了 1,000 多个其他域,至少在几次爬网中产生了这种不正确的“无捕获”结果,其中大多数域属于出版商,包括 BBC、路透社、纽约客,有线, 的金融时报, 华盛顿邮报,而且,是的,大西洋报。根据我的研究和 Common Crawl’s自己的披露,这些出版物背后的公司已向该非营利组织发出法律请求。至少一位与我交谈过的出版商告诉我,他们使用过这个搜索工具,并得出结论,其内容已从 Common Crawl 的档案中删除。我

在过去的两年里,Common Crawl 与人工智能行业越来越融洽。2023 年,在 Elbaz 家族基金会信托基金近乎独家提供财政支持 15 年后,它收到了 OpenAI(25 万美元)、Anthropic(25 万美元)和其他参与人工智能开发的组织的捐赠。(Skrenta 告诉我,运行 Common Crawl 需要花费“数百万美元。”)

在训练 AI 模型时,OpenAI 和 Google 等开发人员通常会过滤 Common Crawl 的档案,以删除他们不想要的材料,例如种族主义、脏话和各种形式的低质量散文。每个开发者和公司都有自己的过滤策略,这导致了基于 Common Crawl 的训练数据集的激增:c4(由谷歌创建),精细网,直流LM,以及其他 50 多个。这些数据集已从人工智能开发中心 Hugging Face 和其他来源下载了数千万次。

但 Common Crawl 不仅提供原始文本,还提供原始文本。它还一直在帮助自己组装和分发人工智能训练数据集。其开发商有合着 多个 论文关于法学硕士培训数据管理,他们有时出现在会议上,他们向 AI 开发人员展示如何使用 Common Crawl 进行培训。Common Crawl 甚至托管了多个源自其爬行的人工智能训练数据集,其中包括一个对于英伟达,世界上最有价值的公司。在其关于数据集,Nvidia 感谢某些 Common Crawl 开发者的建议。

人工智能公司辩称,使用受版权保护的材料是合理使用,一段时间以来,Skrenta 一直在用机器人权利来界定这个问题。2023年,他发送了一封信敦促美国版权局不要“阻碍智能机器的发展”,并附上了两张机器人读书的插图。但这一论点掩盖了参与者是谁:不是机器人,而是公司及其强大的高管,他们决定用什么内容来训练模型,并从结果中获利。

如果 Common Crawl 愿意的话,它可以减轻这些公司对作者和出版商造成的损害,同时又不妨碍研究人员获取其数据。在他的2024年报告前 Mozilla 研究员 Baack 指出,无论何时使用 Common Crawl 抓取的内容,都可能需要归属。这将帮助出版商跟踪其作品的使用情况,包括它何时可能出现在不应访问的人工智能模型的训练数据中。这是开放数据集的常见要求,并且不会花费 Common Crawl 任何费用。我问斯克伦塔是否考虑过这一点。他告诉我,他已经阅读了巴克的报告,但不打算采纳该建议,因为这不是 Common Crawl 的责任。“我们无法监管整件事,”他告诉我。——这不是我们的工作。我们只是一堆落满灰尘的书架。”S克伦塔

已经说过那个想要从 Common Crawl 中删除其内容的出版商将“杀死开放网络”。同样,人工智能行业经常通过援引开放概念来捍卫其假定的抓取网络的权利。但是其他指出生成型人工智能公司通过激励出版商扩大和加强付费墙来保护他们的作品(及其商业模式)免受剥削性的抓取,从而扼杀了开放性。推广另一个可疑的、自我感觉良好的想法:Common Crawl

已经说过互联网是“信息自由存在的地方”,这呼应了技术自由主义的口号“信息想要自由”。在流行的用法中,这句话经常被剥离其上下文。它来自一个备注由科技未来学家斯图尔特·布兰德 (Stewart Brand) 于 1984 年提出。在讨论计算机如何加速信息传播时,布兰德观察到,“信息有点想要变得昂贵,因为它太有价值了。”但矛盾的是,他说,“信息几乎想要免费”,因为计算机使传播信息的成本变得如此之低。换句话说,这不是信息应该是免费的——相反,计算机往往会做到这一点似乎免费。然而,这一想法如今被 Common Crawl 等秘密组织所采用,它们选择哪些信息“免费”,哪些信息不免费。

在我们的谈话中,斯克伦塔淡化了任何特定报纸或杂志的重要性。他告诉我大西洋报不是互联网的重要组成部分。“无论你说什么,其他人也在其他​​网站上说,”他说。在我们的整个谈话中,斯克伦塔给人的印象是对原创报道的运作方式缺乏尊重(或理解)。

然而,斯克伦塔确实对 Common Crawl 的档案表示了极大的敬意。他将其视为我们文明成就的记录。他告诉我,他想“把它放在一个水晶立方体上,然后粘在月球上”,这样“如果地球爆炸”,外星人也许能够重建我们的历史。—经济学人大西洋报不会在那个立方体上,”他告诉我。– 您的文章不会出现在该立方体上。这篇文章。 –

关于《该公司悄悄向人工智能开发者提供付费文章》的评论


暂无评论

发表评论

摘要

Common Crawl Foundation 是一家总部位于硅谷的非营利组织,在过去十年中一直在抓取数十亿个网页,以创建可供研究的广泛互联网档案。然而,这些数据现在被 OpenAI 和 Google 等主要人工智能公司用来训练语言模型,而没有得到出版商的适当同意。尽管声称他们只抓取免费内容,Common Crawl 也一直在收集付费文章。要求 Common Crawl 删除其内容的出版商报告部分合规或不合规。该基金会的执行董事 Rich Skrenta 认为,人工智能模型应该能够自由访问所有互联网数据,无视版权问题和出版商的删除要求。这种做法在人工智能行业和新闻出版商中引起了重大争议。