作者:Alistair Barr
一个数据点最近引起了我的注意。机器人与网站产生更多的互联网流量相比人类现在,网络安全公司Thales说。
这是由网络爬网群由大型科技公司和AI实验室(包括Google)释放Openai和人类,这种免费的内容是免费的。
我已经警告过这些自动刮板前。他们越来越复杂并坚持不懈地追求收集信息以满足对不满的需求AI培训数据集。这些机器人不仅未经许可或付款获取数据,而且还会在互联网的某些地方引起流量激增,网站所有者的成本增加和内容创建者。
值得庆幸的是,有一种新的方法来阻止这种机器人群。如果你在努力阻止他们,您可以将它们发送到新的数字兔子孔中,以吸收内容垃圾。一位软件开发人员最近以一种很好的方式称这种“恶魔般”。
这就是称为AI迷宫,它是一种工具Cloudflare。AI迷宫被描述为一种“新方法”,使用生成的AI来告知而是误导。当CloudFlare检测到未经授权的活动(通常来自忽略“无爬行”指令的机器人)时,它会部署一个陷阱:令人信服的真实但无关紧要的AI生成的内容的迷宫,旨在浪费机器人的时间,并通过AI Companies的计算能力进行咀嚼。
Cloudflare在最近的一份公告中承诺,这只是使用生成人工智能阻止机器人的第一次迭代。
与传统的蜜罐不同,AI迷宫创建了人类看不见的链接页面的整个网络,但对机器人非常有吸引力。这些诱饵页面不会影响搜索引擎的优化,也不会被搜索引擎索引。它们是专门针对机器人量身定制的,这些机器人被束缚在毫无意义的数字gibberish循环中。
当机器人更深入地跟随迷宫,他们无意间揭示了自己的行为,使Cloudflare可以指纹并分类它们。这些数据点直接进入Cloudflare不断发展的机器学习模型,从而增强了客户的未来检测。
Cloudflare产品副总裁Will Allen告诉我,超过80万个域名已经解雇了该公司的一般域名AI机器人阻止工具。当偷偷摸摸的AI公司遇到阻滞剂时,AI迷宫是挥舞着的下一个武器。
CloudFlare尚未发布有关使用AI迷宫的数据,这表明这还为时过早。艾伦说:“这仍然是非常新的,所以我们尚未发布该特定的数据点。”
我问他,如果大多数互联网的数据已经被刮擦以进行模型培训,为什么AI机器人仍然如此活跃。
“新内容,”艾伦说。“如果我搜索'旧金山最好的餐厅是什么,那么在过去一周中展示高质量的内容要比一两年以前的信息要好得多。”
机器人不仅仅是刮擦旧博客文章;他们渴望获得最新鲜的数据,以保持AI输出相关。
Cloudflare的策略将这种需求倒在其头上。它没有为未经授权的刮板提供宝贵的新内容,而是为它们提供了无尽的合成文章自助餐,每个杂物都比上一个更无关紧要。
随着AI刮刀变得越来越普遍,像AI迷宫这样的创新防御能力正在变得必不可少。通过将AI对抗,Cloudflare引入了一层巧妙的防御层,不仅阻止了坏演员,而且还耗尽了他们。
对于Web管理员,启用AI迷宫就像在Cloudflare仪表板上切换开关一样容易。这是一个很小的一步,可以在保护原始内容免受AI时代未经授权的剥削中产生很大的影响。