作者:Written by
像大多数人一样,我的妻子每天多次搜索搜索Google。我们在家工作,所以我们的家庭房可以作为会议室翻倍。每当我们参加会议时,就会出现有关任何事情的问题,她都会搜索它。
这与多年来一样。但是接下来发生的事情发生了变化。
她没有单击一个搜索结果链接,而是经常阅读AI摘要。如今,她很少点击提供Google AI总结的原始信息的任何网站。
当我与她谈论这件事时,丹妮丝承认她实际上访问网站的频率较低。但是她还指出,对于她精通的话题,她注意到AI有时是错误的。她说,她用一粒盐来获得AI结果,但他们经常提供足够的基本信息,而她不再需要寻找。如有疑问,她的确会更深入地研究。
这就是我们今天所在。越来越多的用户像我的妻子一样,从AI中获取数据,从未访问网站(因此,从不给内容创作者提供机会为他们的工作提供补偿)。
更糟糕的是,越来越多的人信任AI,因此他们不仅使内容创建者更难谋生,而且他们经常获得幻觉或不正确的信息。由于他们从未访问原始信息来源,因此几乎没有动力来交叉检查或验证他们阅读的内容。
Cloudflare首席执行官Matthew Prince提供了 一些毁灭性的统计数据。他使用的页面数量与作为度量标准的读者的页面数量相比,该页面的数量爬行的数量是爬网的数量。
作为基准,他说10年前,对于Google爬行的两页,它将一名访问者送往内容创建者的网站。六个月前,该比率是六页,爬到了一个访问者发送到内容网站的访问者。现在,仅仅六个月后,就有18页爬到一位访问者发送到内容网站上。
普林斯认为,这些数字在AI网站上要差得多。AI站点从我们其他所有人中删除的信息中获得了重大价值。六个月前,与通过OpenAI重定向的访问者的页面的比例为250比1。现在,随着人们对信任的越来越熟悉(或懒得关心不准确),该比率为1,500至1。
在许多方面,AI成为对内容创建者的生存威胁。通过吸尘全世界勤奋的团队生产的内容,然后将这些内容作为摘要向读者提供回馈,出版商和作家正在失去收入和影响力。许多创作者也在失去动力,因为如果他们不能以谋生为生,或者至少创造了追随者,为什么要打扰呢?
一些出版商,例如Ziff Davis(ZDNET的母公司)和《纽约时报》,正在起诉Openai侵犯版权。您可能已经看到ZDNET上的免责声明说:“披露:ZDNET的母公司齐夫·戴维斯(Ziff Davis)于2025年4月对Openai提起诉讼,指控其侵犯了Ziff Davis在培训和操作其AI系统方面的版权。”
其他出版商,包括《华尔街日报》,《金融时报》,《大西洋》和《华盛顿邮报》,已将其内容许可给OpenAI和其他一些AI大型语言模型。
AI中间人可能造成的整个社会的损害是深远的,值得一本独立文章。但是本文更实用。在这里,我们承认AI提出的威胁要出版,并专注于反击的技术方式。
换句话说,如果AIS无法刮擦,未经出版商的许可,他们将无法赠送发布和受版权保护的内容。
最简单,最直接,最可能有效的防御是robots.txt文件。这是您在网站目录的根源上放置的文件。它告诉蜘蛛,爬网和机器人是否有权访问您的网站。这也称为用户代理过滤。
该文件具有许多有趣的含义。首先,只有举止良好的爬行者才能关注其规格。它不能提供任何防止访问的安全性,因此机器人完全是自愿的。
另外: 15个新作业AI可以创造 - 可以是您的下一个演出吗?
其次,您需要小心发送哪些机器人。例如,如果您使用robots.txt拒绝访问GoogleBot,则您的网站不会在Google上搜索索引。告别所有Google推荐。另一方面,如果您使用robots.txt拒绝访问Google扩展的访问,则您将阻止Gemini索引并使用您的网站进行双子座培训。
这个网站有您可能想拒绝访问的这些机器人的索引。这是Openai指南关于如何防止Openai的机器人爬行您的网站。
但是,忽略robots.txt的Web刮刀呢?您如何阻止他们刮擦您的网站?
在这里,现场操作员需要使用皮带和抗议者的策略。基本上,您正在一场军备竞赛中找到防御刮擦的方法,而刮板试图找到一种吸收所有网站数据的方法。在本节中,我将列出一些技术。这远非完整的列表。在防御者和刮板方面,技术都在不断变化。
费率限制请求:修改服务器以限制在一段时间内通过给定的IP地址请求多少页。人类不可能每分钟要求数百页。与本节中列出的大多数技术一样,这将在服务器之间有所不同,因此您必须查找服务器才能查找如何配置此功能。它也可能使您的网站的访问者如此烦恼,以至于他们停止访问。所以,有。
使用验证码:请记住,验证码倾向于给用户带来不便,但他们可以减少某些类型的爬网机进入您的网站。当然,具有讽刺意味的是,如果您试图阻止AI爬行者,那是AIS最有可能能够击败验证码。就是这样。
选择性IP禁令:如果您发现有IP范围使您的网站淹没您的网站,则可以在防火墙级别禁止使用它们。Firehol(开源防火墙工具集)维护IP地址的黑名单。他们中的大多数与网络安全有关,但是它们可以让您在块列表中开始。但是要小心。不要使用毯子IP禁令,否则合法的访问者将被您的网站阻止。所以,也有。
越来越多的反剪裁服务将试图以收费捍卫您的网站。它们包括:
这是这些服务使用的一些技术的快速概述。
行为匹配:该技术比标题更多地分析。它分析了请求行为。从本质上讲,这是标题分析和逐局请求限制的组合。
JavaScript挑战:除了基于JavaScript的验证码外,这些通常运行在网页的背景中。他们要求脚本在页面上执行或测量交互的起搏,以便进一步访问。
蜜罐陷阱:这些通常是埋在网页中的元素,例如旨在捕获机器人的无形字段或链接。如果一个机器人在网站上抓住所有东西(人类用户不太可能做到这一点),则蜜罐陷阱会识别并启动服务器块。
总体行为分析:这是AIS与AIS战斗的地方。AI代表您的网站监视器访问行为运行,并使用机器学习来识别不是人类的访问模式。然后可以阻止那些恶意访问。
浏览器指纹:浏览器为他们访问的站点提供有关自己的广泛数据。机器人通常试图欺骗合法用户的指纹。但是他们经常无意中提供自己的指纹,阻止服务可以汇总,然后用来阻止机器人。
诱饵陷阱:这些是充满自动化和无用内容的诱饵页面的迷宫,并以一种模式链接在一起,该模式会导致机器人浪费时间或在链接下被卡住。其中大多数都标有“ nofollow”链接,因此搜索引擎不会索引它们或对您的SEO等级产生负面影响。当然,恶意机器人正在学习如何识别这些陷阱并对抗它们,但是它们确实提供了有限的保护。
作为直接从我的创意产出中谋生的作者,我发现AIS的前景以我的作品为培训数据令人反感。像Openai这样的公司如何使我们所有人的创意者的背部都有数十亿美元!然后,他们转过身来提供一种可能使我们许多人失业的产品。
但是,我必须承认AI有以多种不同的方式节省了我的时间。我每天使用文本编辑器或文字处理器。但是,当我开始职业生涯时,我为书本运营商创作的出版物将我的书面文字转换为可发布的内容。现在,博客工具和内容管理系统可以通过。整个职业在几年的时间内消失了。这就是新技术的价格。
几十年来,我一直参与AI创新。写作后生成的AI自2023年初蓬勃发展以来,我坚信它会留在这里。
AI聊天机器人喜欢Google双子座和chatgpt正在努力成为好公民。他们刮擦了我们所有的内容,并从中删除了数十亿美元,但是他们愿意为我们的工作提供链接,以供少数几个麻烦来源的人提供链接。
一些大型AI公司认为,它们为发布商提供了价值。Openai发言人告诉哥伦比亚新闻评论,“我们通过通过摘要,报价,清晰的链接和归因来帮助4亿每周的ChatGpt用户来帮助发布者和创作者。”
在Digiday中引用数据分析公司Sameweb的高级见解经理David Carr说:“ Chatgpt于2025年4月向250个新闻和媒体网站访问了24380万次,从今年1月的1.232亿访问中增长了98%。”
这些数字很大,但仅没有上下文。Google每天进行数十亿美元的访问,在AI之前,几乎所有这些访问都会引起其他网站的推荐。随着Google的推荐百分比急剧下降,OpenAI的推荐数量是很小的流量,否则发送给了内容生产商,问题非常真实。
是的,这些链接仅仅是桌子废料,但是我们会阻止它们吗?如果您在网站上启用网络刮擦块,除了我母亲曾经说过的那样,除了“切断鼻子以使您的脸掉脸部”之外,它会做其他事情吗?
另外: 山姆·奥特曼(Sam Altman)说奇异性是迫在眉睫的 - 这就是为什么
除非每个站点都会阻止AI刮板,否则将AI数据集锁定到2025年及以上,否则阻止您自己的网站从AIS上锁定,只能阻止您从AI服务中获得很少的流量。那应该吗?
从长远来看,这种AI刮擦的做法是不可持续的。如果AIS阻止了创意者从辛勤工作中获得价值,那么创意人就不会有动力继续创造。到那时,AI生成的内容的质量将开始下降。它将成为一个恶性循环,更少的创意能够使他们的技能获利,而AIS则提供了不断增长的内容质量。
那么,我们该怎么办?如果我们要在未来生存,我们的整个行业都需要询问并尝试回答这个问题。如果没有,欢迎来到白痴。
你呢?您是否采取了任何步骤来阻止AI机器人刮擦网站?您是否担心如何使用内容来培训生成模型?您认为可见性和保护之间的权衡值得吗?您正在使用哪些类型的工具或服务来监视或限制刮擦?在下面的评论中让我们知道。
您可以在社交媒体上关注我的日常项目更新。确保订阅我的每周更新时事通讯,并在Twitter/X上关注我@davidgewirtz,在Facebook上facebook.com/davidgewirtz,在Instagram上instagram.com/davidgewirtz,在布鲁斯基(Bluesky)@davidgewirtz.com,在YouTube上youtube.com/davidgewirtztv。.