为AI公司收集内容的机器人已经扩大到威胁着艺术和文化的数字收藏的地步。
画廊,图书馆,档案和博物馆(Glams)说,它们被AI机器人的网络爬行脚本不知所措,这些脚本访问网站并下载用于培训AI模型的数据报告Glam-e实验室周二发行,研究了影响魅力的问题。
Glam-e实验室是埃克塞特大学科学,文化与法律中心与纽约大学法律创新法律与政策中心之间的共同举措。
根据对43个组织的匿名调查,该报告表明,文化机构的内容积极收获使文化机构感到震惊,这并不考虑到网站上数据收获的位置的负担。
报告说:“机器人是普遍的,尽管不是普遍的。”“在43位受访者中,有39名流量最近增加了。在39名受访者中,有27位受访者归因于AI培训数据机器人的流量增加,另外7个受访者认为,机器人可以为交通造成贡献。”
该报告称,机器人收集数据的涌现,通常没有被忽视,直到变得如此糟糕,以至于它使在线收藏台离线敲门。
报告说:“受访者担心AI培训数据机器人将创造一个不可固定的环境,以升级为在线访问收藏的成本。”
对这些问题的评论的机构对机器人何时开始何时开始有不同的看法。有些人报告在2021年就注意到了这一点,而另一些人则只开始注意到今年的网络刮板流量。
有些机器人可以识别自己,但有些没有。无论哪种方式,受访者都说robots.txt指令符合Web Publishers帖子的自愿行为指南,目前尚未有效控制机器人群。
AWS和Cloudflare等人提供的机器人防御确实有帮助,但是Glam-E实验室承认问题很复杂。如果机构的目标是提供公众对数字资产的访问,则将内容放置在登录后面可能不会有效。并且可能有理由需要一定程度的机器人流量,例如索引搜索引擎站点的机器人。
GLAM-E实验室调查回应了本月早些时候通过公开访问存储库(COAR)发布的类似报告的调查结果,该报告基于图书馆,大学和其他机构经营的66个开放访问存储库的答复。这
Coar报告说:“超过90%的受访者表示,他们的存储库通常每周不止一次,通常会导致速度放缓和服务中断。虽然无法100%确定这些机器人的目的,但社区中的假设是,他们是AI机器人收集生成AI训练的AI机器人。”Glam-e实验室调查还回忆起有关虐待机器人的投诉
Wikimedia基金会,,,,Sourcehut,侨民开发人员丹尼斯·舒伯特,维修地点ifixit和文档项目读取thedocs。归根结底,《 Glam-E报告》认为,AI提供者需要开发更多负责任的方式与其他网站互动。
报告说:“主持在线收藏的文化机构没有资源来继续添加更多的服务器,部署更复杂的防火墙,并聘请更多的运营工程师。”
“这意味着这符合实体的长期利益,使其蜂拥而至,以找到一种可持续的方式来访问他们如此渴望的数据。”®