英语轻松读发新版了,欢迎下载、更新

一种挫败Big Tech吸引数据的新方法的新方法

2025-05-01 13:38:00 英文原文

作者:Alistair Barr

AI Robot hand squeezing data, binary code and dollar signs out of a desktop computer

随着AI工具真空吸收了大量的免费培训数据,公司正在反击。 盖蒂图像;Alyssa Powell/Bi
  • 网络安全公司Thales说,机器人现在产生的互联网流量比人类更多。
  • 这是由技术巨头的Web爬网驱动的,这些巨头收集数据以进行AI模型培训。
  • Cloudflare的AI迷宫误导并用假内容耗尽机器人。

一个数据点最近引起了我的注意。机器人与网站产生更多的互联网流量相比人类现在,网络安全公司Thales说。

这是由网络爬网群由大型科技公司和AI实验室(包括Google)释放Openai和人类,这种免费的内容是免费的。

我已经警告过这些自动刮板前。他们越来越复杂并坚持不懈地追求收集信息以满足对不满的需求AI培训数据集。这些机器人不仅未经许可或付款获取数据,而且还会在互联网的某些地方引起流量激增,网站所有者的成本增加和内容创建者。

值得庆幸的是,有一种新的方法来阻止这种机器人群。如果你在努力阻止他们,您可以将它们发送到新的数字兔子孔中,以吸收内容垃圾。一位软件开发人员最近以一种很好的方式称这种“恶魔般”。

这就是称为AI迷宫,它是一种工具Cloudflare。AI迷宫被描述为一种“新方法”,使用生成的AI来告知而是误导。当CloudFlare检测到未经授权的活动(通常来自忽略“无爬行”指令的机器人)时,它会部署一个陷阱:令人信服的真实但无关紧要的AI生成的内容的迷宫,旨在浪费机器人的时间,并通过AI Companies的计算能力进行咀嚼。

Cloudflare在最近的一份公告中承诺,这只是使用生成人工智能阻止机器人的第一次迭代。

数字胡言乱语

与传统的蜜罐不同,AI迷宫创建了人类看不见的链接页面的整个网络,但对机器人非常有吸引力。这些诱饵页面不会影响搜索引擎的优化,也不会被搜索引擎索引。它们是专门针对机器人量身定制的,这些机器人被束缚在毫无意义的数字gibberish循环中。

当机器人更深入地跟随迷宫,他们无意间揭示了自己的行为,使Cloudflare可以指纹并分类它们。这些数据点直接进入Cloudflare不断发展的机器学习模型,从而增强了客户的未来检测。

Cloudflare产品副总裁Will Allen告诉我,超过80万个域名已经解雇了该公司的一般域名AI机器人阻止工具。当偷偷摸摸的AI公司遇到阻滞剂时,AI迷宫是挥舞着的下一个武器。

CloudFlare尚未发布有关使用AI迷宫的数据,这表明这还为时过早。艾伦说:“这仍然是非常新的,所以我们尚未发布该特定的数据点。”

我问他,如果大多数互联网的数据已经被刮擦以进行模型培训,为什么AI机器人仍然如此活跃。

“新内容,”艾伦说。“如果我搜索'旧金山最好的餐厅是什么,那么在过去一周中展示高质量的内容要比一两年以前的信息要好得多。”

将人工智会反对自己

机器人不仅仅是刮擦旧博客文章;他们渴望获得最新鲜的数据,以保持AI输出相关。

Cloudflare的策略将这种需求倒在其头上。它没有为未经授权的刮板提供宝贵的新内容,而是为它们提供了无尽的合成文章自助餐,每个杂物都比上一个更无关紧要。

随着AI刮刀变得越来越普遍,像AI迷宫这样的创新防御能力正在变得必不可少。通过将AI对抗,Cloudflare引入了一层巧妙的防御层,不仅阻止了坏演员,而且还耗尽了他们。

对于Web管理员,启用AI迷宫就像在Cloudflare仪表板上切换开关一样容易。这是一个很小的一步,可以在保护原始内容免受AI时代未经授权的剥削中产生很大的影响。

关于《一种挫败Big Tech吸引数据的新方法的新方法》的评论


暂无评论

发表评论

摘要

现在,由于网络爬网人收集数据,诸如Google和OpenAI等科技巨头的AI模型培训,机器人现在产生的互联网流量要比人类多。CloudFlare推出了AI迷宫,该工具使用生成AI来误导内容无关的内容,浪费了时间和资源。这种方法创建了数字兔子孔,这些数字兔子孔的特定于机器人,特定于机器人的内容,以挫败未经授权的刮擦工作。