2025-06-30 11:30:00 · 英文原文

AI公司如何从网络中秘密收集培训数据（以及它重要的原因）

作者：Written by

gettyimages-1417866211 — Getty/the_burtons

像大多数人一样，我的妻子每天多次搜索搜索Google。我们在家工作，所以我们的家庭房可以作为会议室翻倍。每当我们参加会议时，就会出现有关任何事情的问题，她都会搜索它。

这与多年来一样。但是接下来发生的事情发生了变化。

她没有单击一个搜索结果链接，而是经常阅读AI摘要。如今，她很少点击提供Google AI总结的原始信息的任何网站。

另外： AI真正使用了多少能量？答案令人惊讶 - 有点复杂

当我与她谈论这件事时，丹妮丝承认她实际上访问网站的频率较低。但是她还指出，对于她精通的话题，她注意到AI有时是错误的。她说，她用一粒盐来获得AI结果，但他们经常提供足够的基本信息，而她不再需要寻找。如有疑问，她的确会更深入地研究。

这就是我们今天所在。越来越多的用户像我的妻子一样，从AI中获取数据，从未访问网站（因此，从不给内容创作者提供机会为他们的工作提供补偿）。

更糟糕的是，越来越多的人信任AI，因此他们不仅使内容创建者更难谋生，而且他们经常获得幻觉或不正确的信息。由于他们从未访问原始信息来源，因此几乎没有动力来交叉检查或验证他们阅读的内容。

AI刮擦的影响

Cloudflare首席执行官Matthew Prince提供了一些毁灭性的统计数据。他使用的页面数量与作为度量标准的读者的页面数量相比，该页面的数量爬行的数量是爬网的数量。

作为基准，他说10年前，对于Google爬行的两页，它将一名访问者送往内容创建者的网站。六个月前，该比率是六页，爬到了一个访问者发送到内容网站的访问者。现在，仅仅六个月后，就有18页爬到一位访问者发送到内容网站上。

普林斯认为，这些数字在AI网站上要差得多。AI站点从我们其他所有人中删除的信息中获得了重大价值。六个月前，与通过OpenAI重定向的访问者的页面的比例为250比1。现在，随着人们对信任的越来越熟悉（或懒得关心不准确），该比率为1,500至1。

在许多方面，AI成为对内容创建者的生存威胁。通过吸尘全世界勤奋的团队生产的内容，然后将这些内容作为摘要向读者提供回馈，出版商和作家正在失去收入和影响力。许多创作者也在失去动力，因为如果他们不能以谋生为生，或者至少创造了追随者，为什么要打扰呢？

另外： 人道报告发现，人工智能特工将威胁人类实现目标

一些出版商，例如Ziff Davis（ZDNET的母公司）和《纽约时报》，正在起诉Openai侵犯版权。您可能已经看到ZDNET上的免责声明说：“披露：ZDNET的母公司齐夫·戴维斯（Ziff Davis）于2025年4月对Openai提起诉讼，指控其侵犯了Ziff Davis在培训和操作其AI系统方面的版权。”

其他出版商，包括《华尔街日报》，《金融时报》，《大西洋》和《华盛顿邮报》，已将其内容许可给OpenAI和其他一些AI大型语言模型。

AI中间人可能造成的整个社会的损害是深远的，值得一本独立文章。但是本文更实用。在这里，我们承认AI提出的威胁要出版，并专注于反击的技术方式。

换句话说，如果AIS无法刮擦，未经出版商的许可，他们将无法赠送发布和受版权保护的内容。

Robots.txt：您的第一个防御

最简单，最直接，最可能有效的防御是robots.txt文件。这是您在网站目录的根源上放置的文件。它告诉蜘蛛，爬网和机器人是否有权访问您的网站。这也称为用户代理过滤。

该文件具有许多有趣的含义。首先，只有举止良好的爬行者才能关注其规格。它不能提供任何防止访问的安全性，因此机器人完全是自愿的。

另外： 15个新作业AI可以创造 - 可以是您的下一个演出吗？

其次，您需要小心发送哪些机器人。例如，如果您使用robots.txt拒绝访问GoogleBot，则您的网站不会在Google上搜索索引。告别所有Google推荐。另一方面，如果您使用robots.txt拒绝访问Google扩展的访问，则您将阻止Gemini索引并使用您的网站进行双子座培训。

这个网站有您可能想拒绝访问的这些机器人的索引。这是Openai指南关于如何防止Openai的机器人爬行您的网站。

但是，忽略robots.txt的Web刮刀呢？您如何阻止他们刮擦您的网站？

您如何防止流氓刮擦？

在这里，现场操作员需要使用皮带和抗议者的策略。基本上，您正在一场军备竞赛中找到防御刮擦的方法，而刮板试图找到一种吸收所有网站数据的方法。在本节中，我将列出一些技术。这远非完整的列表。在防御者和刮板方面，技术都在不断变化。

费率限制请求：修改服务器以限制在一段时间内通过给定的IP地址请求多少页。人类不可能每分钟要求数百页。与本节中列出的大多数技术一样，这将在服务器之间有所不同，因此您必须查找服务器才能查找如何配置此功能。它也可能使您的网站的访问者如此烦恼，以至于他们停止访问。所以，有。

使用验证码：请记住，验证码倾向于给用户带来不便，但他们可以减少某些类型的爬网机进入您的网站。当然，具有讽刺意味的是，如果您试图阻止AI爬行者，那是AIS最有可能能够击败验证码。就是这样。

选择性IP禁令：如果您发现有IP范围使您的网站淹没您的网站，则可以在防火墙级别禁止使用它们。Firehol（开源防火墙工具集）维护IP地址的黑名单。他们中的大多数与网络安全有关，但是它们可以让您在块列表中开始。但是要小心。不要使用毯子IP禁令，否则合法的访问者将被您的网站阻止。所以，也有。

另外：您可以在业务中填补扩大AI技能差距的5种方法

反剪裁服务的兴起

越来越多的反剪裁服务将试图以收费捍卫您的网站。它们包括：

QRATOR：网络层过滤和DDOS感知机器人阻塞
Cloudflare：信誉追踪，指纹和行为分析
Akamai机器人经理：身份，意图和行为建模
Datadome：机器学习加实时响应
人类安全：JavaScript传感器带有Al后端
卡萨达：自适应挑战和所谓的防篡改JavaScript遥测
Imperva：威胁智能加浏览器指纹
迅速：用边缘逻辑基于规则的过滤
指纹：跨诉指纹和用户跟踪
链接11：行为分析和交通沙箱
Netacea：基于意图的检测和服务器端分析

这是这些服务使用的一些技术的快速概述。

行为匹配：该技术比标题更多地分析。它分析了请求行为。从本质上讲，这是标题分析和逐局请求限制的组合。

JavaScript挑战：除了基于JavaScript的验证码外，这些通常运行在网页的背景中。他们要求脚本在页面上执行或测量交互的起搏，以便进一步访问。

蜜罐陷阱：这些通常是埋在网页中的元素，例如旨在捕获机器人的无形字段或链接。如果一个机器人在网站上抓住所有东西（人类用户不太可能做到这一点），则蜜罐陷阱会识别并启动服务器块。

总体行为分析：这是AIS与AIS战斗的地方。AI代表您的网站监视器访问行为运行，并使用机器学习来识别不是人类的访问模式。然后可以阻止那些恶意访问。

浏览器指纹：浏览器为他们访问的站点提供有关自己的广泛数据。机器人通常试图欺骗合法用户的指纹。但是他们经常无意中提供自己的指纹，阻止服务可以汇总，然后用来阻止机器人。

诱饵陷阱：这些是充满自动化和无用内容的诱饵页面的迷宫，并以一种模式链接在一起，该模式会导致机器人浪费时间或在链接下被卡住。其中大多数都标有“ nofollow”链接，因此搜索引擎不会索引它们或对您的SEO等级产生负面影响。当然，恶意机器人正在学习如何识别这些陷阱并对抗它们，但是它们确实提供了有限的保护。

阻止刮擦进行人工智能培训的重大权衡

作为直接从我的创意产出中谋生的作者，我发现AIS的前景以我的作品为培训数据令人反感。像Openai这样的公司如何使我们所有人的创意者的背部都有数十亿美元！然后，他们转过身来提供一种可能使我们许多人失业的产品。

但是，我必须承认AI有以多种不同的方式节省了我的时间。我每天使用文本编辑器或文字处理器。但是，当我开始职业生涯时，我为书本运营商创作的出版物将我的书面文字转换为可发布的内容。现在，博客工具和内容管理系统可以通过。整个职业在几年的时间内消失了。这就是新技术的价格。

几十年来，我一直参与AI创新。写作后生成的AI自2023年初蓬勃发展以来，我坚信它会留在这里。

另外：您在AI革命中蓬勃发展所需的最关键的工作技能

AI聊天机器人喜欢Google双子座和chatgpt正在努力成为好公民。他们刮擦了我们所有的内容，并从中删除了数十亿美元，但是他们愿意为我们的工作提供链接，以供少数几个麻烦来源的人提供链接。

一些大型AI公司认为，它们为发布商提供了价值。Openai发言人告诉哥伦比亚新闻评论，“我们通过通过摘要，报价，清晰的链接和归因来帮助4亿每周的ChatGpt用户来帮助发布者和创作者。”

在Digiday中引用数据分析公司Sameweb的高级见解经理David Carr说：“ Chatgpt于2025年4月向250个新闻和媒体网站访问了24380万次，从今年1月的1.232亿访问中增长了98％。”

这些数字很大，但仅没有上下文。Google每天进行数十亿美元的访问，在AI之前，几乎所有这些访问都会引起其他网站的推荐。随着Google的推荐百分比急剧下降，OpenAI的推荐数量是很小的流量，否则发送给了内容生产商，问题非常真实。

是的，这些链接仅仅是桌子废料，但是我们会阻止它们吗？如果您在网站上启用网络刮擦块，除了我母亲曾经说过的那样，除了“切断鼻子以使您的脸掉脸部”之外，它会做其他事情吗？

另外：山姆·奥特曼（Sam Altman）说奇异性是迫在眉睫的 - 这就是为什么

除非每个站点都会阻止AI刮板，否则将AI数据集锁定到2025年及以上，否则阻止您自己的网站从AIS上锁定，只能阻止您从AI服务中获得很少的流量。那应该吗？

从长远来看，这种AI刮擦的做法是不可持续的。如果AIS阻止了创意者从辛勤工作中获得价值，那么创意人就不会有动力继续创造。到那时，AI生成的内容的质量将开始下降。它将成为一个恶性循环，更少的创意能够使他们的技能获利，而AIS则提供了不断增长的内容质量。

那么，我们该怎么办？如果我们要在未来生存，我们的整个行业都需要询问并尝试回答这个问题。如果没有，欢迎来到白痴。

你呢？您是否采取了任何步骤来阻止AI机器人刮擦网站？您是否担心如何使用内容来培训生成模型？您认为可见性和保护之间的权衡值得吗？您正在使用哪些类型的工具或服务来监视或限制刮擦？在下面的评论中让我们知道。

您可以在社交媒体上关注我的日常项目更新。确保订阅我的每周更新时事通讯，并在Twitter/X上关注我@davidgewirtz，在Facebook上facebook.com/davidgewirtz，在Instagram上instagram.com/davidgewirtz，在布鲁斯基（Bluesky）@davidgewirtz.com，在YouTube上youtube.com/davidgewirtztv。.

关于《AI公司如何从网络中秘密收集培训数据（以及它重要的原因）》的评论

暂无评论

发表评论

摘要

本文讨论了用户依靠AI生成的摘要的趋势的增长，而不是访问原始内容源。对于看到其工作流量下降和赔偿的内容创造者来说，这种转变造成了重大挑战。Cloudflare首席执行官Matthew Prince提供了统计数据，说明了如何爬向内容网站的访问者的页面大大增加，这表明AI通过在不补偿原始创作者的情况下刮擦内容而成为出版商的存在威胁。齐夫·戴维斯（Ziff Davis）和《纽约时报》（New York Times）等出版商正在起诉Openai侵犯版权，而其他像《华尔街日报》（The Wall Street Journal）这样的人已获得了其内容许可。为了打击AI刮擦，网站运营商可以使用诸如robots.txt文件，费率限制请求，验证码和选择性IP禁令等技术。还有一些反剪裁服务可提供针对恶意机器人的高级保护。但是，阻止刮擦是由权衡取舍的，因为它可能会降低AI服务的可见性，同时提供有限的保护。从长远来看，由于AI刮擦的实践是不可持续的，因此内容创建者需要找到保护其工作并激励持续创造的方法。本文邀请读者分享他们对此问题的经验和意见。

OC