现在,将 Bluesky 帖子抓取到机器学习数据集的封印已被打破,人们通过直接从社交媒体平台获取的非匿名全文 Bluesky 帖子制作日益庞大的数据集来欺骗用户并互相攀比。公共消防水带——其中包含近 3 亿个帖子。
上周,开源机器学习图书馆平台 Hugging Face 的机器学习图书馆员 Daniel van Strien,发布了由 100 万个 Bluesky 帖子组成的数据集,包括发布时间和发布者。在他第一篇帖子发布后的几个小时内——就在我们报道这是第一个已知的、公开的、非匿名的 Bluesky 帖子数据集之后不久,以及数百名人们对他们的帖子在未经他们许可的情况下被删除感到愤怒的回复之后——van Strein 采取了它下来并道歉。
“我已从存储库中删除了 Bluesky 数据,”他在《蓝天》上写道。“虽然我想支持该平台的工具开发,但我认识到这种方法违反了数据收集的透明度和同意原则。我对这个错误表示歉意。”蓝天官方账号还发布了关于爬行和抓取如何在平台上工作,并表示这是“探索同意的方法。”
正如我当时所写,Bluesky 的基础设施是一把双刃剑:虽然其去中心化性质使用户能够比 X 或 Threads 等网站更好地控制其内容,但这也意味着该网站上的每个事件都会在公共目录中进行编目。喂养。社交媒体帖子有合法的研究用途,但研究人员通常遵循道德和法律准则来规定如何使用这些数据;例如,今年早些时候发表的一篇研究论文使用 Bluesky 帖子来研究虚假信息和错误信息如何在网上传播,使用包含 2.35 亿条帖子的数据集,但该数据是匿名的。研究人员还提供了要求排除个人数据的明确说明。
如果说社交媒体上有一个不变的现象,无论平台如何,那就是史翠珊效应。Van Strien 的原始帖子和道歉都在网上疯传,而且由于很多人都将 Bluesky 和 Twitter 作为主要平台,因此数据集事件也蔓延到了人们喜欢恶搞的 X 领域。Hugging Face 中一百万个帖子的数据集已经消失,但几个更大的数据集已经取代了它。
有一个200 万个帖子数据集作者:Alpine Dale,自称与皮格马利翁AI据其网站称,这是一个尚未发布的“用于聊天、角色扮演、冒险等的开源人工智能项目”。该数据集描述称其可用于: 在社交媒体内容上训练和测试语言模型;分析社交媒体发布模式;研究对话结构和回复网络;社交媒体内容审核研究;使用社交媒体数据的自然语言处理任务。——戴尔在数据集描述中写道,目标是——让你玩得开心:)——
该数据集的社区页面上挤满了人,他们说这要么破坏了 Bluesky 的功能开发者指南(具体来说,“所有服务都必须有一种删除用户请求删除的内容的方法”),否则违反欧洲国家的法律,在这些国家,通用数据保护条例 (GDPR) 将适用于此类数据收集。
我询问专门研究互联网法和 GDPR 的律师尼尔·布朗 (Neil Brown),情况是否如此。答案并不简单。“仅仅处理欧盟境内人员的个人数据并不意味着进行该处理的人受到欧盟 GDPR 的约束,”他在一封电子邮件中表示。要遵守 GDPR,处理需要符合其规定物质和领土范围。实质性范围涉及数据的处理方式:根据法律,“通过自动化方式或在结构化归档系统内完成的个人数据处理,包括个人信息的收集、存储、访问、分析和披露”。地域范围涉及进行数据收集的人员所在的位置以及该数据的主体所在的位置。
“但我想有些人会认为这项活动符合欧盟 GDPR,”布朗说。“这些论点通常基于这样的想法:如果有人公开了个人数据,那么他们就是“公平的游戏”,但恕我直言,欧盟 GDPR 根本就不是这样运作的。”
这些法律问题都没有阻止其他人创建更多更大的数据集。还有一个八百万个帖子数据集该报告由 Alim Maasoglu 编译,根据他们的网站,Alim Maasoglu “目前致力于开发人工智能领域的沉浸式产品”。“这个不断增长的数据集旨在为研究人员和开发人员提供用于分析和实验的真实世界社交媒体数据的全面样本,”Maasoglu 在 Hugging Face 上对数据集的描述说。– 该集合代表了最大的公开可用的 Bluesky 数据集之一,提供了对社交媒体交互和内容模式的独特见解。 –
很快就被很多人超越了。现在有2.98 亿个帖子数据集由用户名为 GAYSEX 的人发布。他们在 Hugging Face 项目描述中写了一段虚构的对话,对话内容是他们自己和数据集中发帖的人之间的对话:“不,你不能这样做!”然后就不要发帖。如果您不想被记录,请不要发布。– 但我在做 XYZ!! – 那么就不要这样做。看。如今,互联网上的几乎所有内容都保留在互联网上。尤其是大型社交网站。您可能需要考虑创建一个博客。这些人被拉去进行人工智能培训的可能性较低+还有其他方法可以保护博客被积极地抓取。“作为我自己博客的共同所有者,我可以说被刮伤有一直很痛苦实际上对于我们以及生成式人工智能公司来说新闻媒体培训是这个行业面临的一个严重问题,以至于许多主要商店都与大型科技公司达成交易想吃午餐。目前 Hugging Face 上至少还有六个类似的用户帖子数据集,数量各异。
玛格丽特·米切尔 (Margaret Mitchell),Hugging Face 首席道德科学家,发表于 蓝天在 van Strien 删除他的数据集之后:“人工智能的最佳前进道路要求技术专家反思/自我批评他们的工作如何影响社会。透明度对此有所帮助。感谢 Bsky 标记人工智能道德以及我同事的回应。让我们让知情同意成为现实。”当有人回复她链接到 200 万个数据集的帖子并要求她“解决”这个问题时,她说,“是的,我正在努力解决这个问题”尽我所能。”
就像几乎所有其他依赖人类创意输出的行业一样,包括新闻学音乐,图书,学术界在人工智能方面,社交媒体平台似乎正在采取两条路线之一:达成一项协议,或者观望法庭上的合理使用论据如何形成,其中什么构成了版权下的“变革性”法律仍在确定中。与此同时,从大型生成型人工智能公司到参与巨魔活动的个人,每个人都在该地区仍处于灰色地带时抢购数据。
关于作者
萨姆·科尔(Sam Cole)在互联网的遥远角落撰写有关性、成人产业、网络文化和人工智能的文章。她是《性如何改变互联网》和《互联网改变性》一书的作者。