作者:By Eileen Guoarchive page
新的研究发现,数百万的护照,信用卡,出生证明和其他包含个人身份信息的文件的图像可能包括在最大的开源AI培训集中之一。
在DataComp CommonPool的一小部分中发现了数千个图像,包括可识别的面孔,这是一个主要的AI训练集,用于从网络上刮下来。由于研究人员仅审核了普通池数据的0.1%,因此他们估计包含个人身份信息(包括面孔和身份文件)的实际图像数量是数亿美元。详细说明违规的研究是本月初在Arxiv上发表。
卡内基·梅隆大学(Carnegie Mellon University)的AI道德博士学位研究员,也是合着者之一,威廉·阿格纽(William Agnew)说,您在网上放置的任何东西都可以[]被刮擦。”
研究人员发现了成千上万 经过验证的身份文件的实例包括信用卡的图像,驾驶执照,护照和出生证书以及800多个经过验证的工作申请文件(包括Réumsumâ©s和求职信),这些文件通过LinkedIn和其他网络搜索确认为与真实的人相关联。(在许多情况下,研究人员没有时间验证文件或由于图像清晰度等问题而无法验证。)
许多ré©s披露的敏感信息,包括残疾状态,背景检查的结果,受抚养人的出生日期和出生地以及种族。当râ©sumâ链接与有在线定义的人相关时,研究人员还发现了联系信息,政府标识符,社会人口统计学信息,面部照片,家庭住址以及其他人的联系信息(例如参考文献)。
由研究人员提供
当它于2023年发布时,Datacomp CommonPool的数据示例为128亿个,是最大的公开可用图像文本对的数据集,这些数据集通常用于训练生成的文本到图像模型。尽管其策展人说普通池是为了进行学术研究的,但其许可也不禁止商业用途。
Common Pool是作为LAION-5B数据集的后续行动而创建的,该数据集用于训练包括稳定扩散和Midjourney在内的模型。它借鉴了相同的数据源:由2014年至2022年非营利性共同爬网完成的网络刮擦。
尽管商业模型通常没有透露他们经过培训的数据集,但Datacomp CommonPool和Laion-5B的共享数据源意味着数据集相似,并且在Laion-5B中可能出现相同的个人身份信息,以及在其他对普通池数据进行培训的下游模型中。普通池研究人员没有回答电子邮件问题。
而且,由于在过去的两年中,Datacomp Commonpool已下载了超过200万次,因此很可能有许多下游模型在此确切的数据集上都接受过培训,”华盛顿大学计算机科学博士学位学生瑞秋·洪(Rachel Hong)说。这些将复制类似的隐私风险。
您可以假设,任何大规模的网络结束数据始终包含不应该存在的内容,”认知科学家和技术伦理学家Abeba Birhane说,他领导了都柏林三一学院的AI责任实验室,是否是个人身份信息(PII),PII,PII,PII),儿童性虐待图像,或仇恨言论(伯哈内自己的言论研究发现Laion-5b已找到)。
的确,Datacomp Commonpool的策展人本身都知道PII可能会出现在数据集中,并采取了一些措施来保护隐私,包括自动检测和模糊的面孔。但是在他们的数据集有限的情况下,Hong的团队发现并验证了该算法错过的800多个面孔,他们估计,总体而言,该算法在整个数据集中都缺少1.02亿个面孔。另一方面,他们没有应用可以识别已知PII角色字符串的过滤器,例如电子邮件或社会安全号码。
Agnew说,过滤非常困难。他们将不得不在PII检测和删除方面取得很大的进步,以使他们公开能够有效地过滤这件事。
由研究人员提供
脸部的其他隐私问题也没有地址。当自动应用模糊的滤波器时,它是可选的,可以删除。此外,照片通常伴随的标题以及照片元数据通常包含更多的个人信息,例如名称和确切位置。
另一种缓解隐私措施来自拥抱面孔,该平台分发培训数据集并托管CommonPool,该平台与理论上允许人们从数据集中搜索和删除自己的信息的工具集成在一起。但是,正如研究人员在论文中指出的那样,这将要求人们知道他们的数据将从那里开始。当被要求发表评论时,拥抱面孔的佛罗伦萨道丹说:“在AI生态系统中最大化数据主体的隐私采用了多层方法,其中包括但不限于提到的小部件,并且该平台与我们的用户社区合作,以更加隐私地的方向将其移动。
无论如何,仅从一个数据集中删除数据可能还不够。``即使有人发现他们的数据也用于培训数据集中,并且行使删除权的权利,从技术上讲,法律尚不清楚这意味着什么。•如果组织仅从培训数据集中删除数据,但没有删除或重新培训已经训练的模型,那么危害仍将被造成。”
Agnew说,最重要的是,如果您的网络障碍,您将在其中有私人数据。即使您过滤,您仍然会在其中有私人数据,仅仅是因为它的规模。这就是我们(机器学习的研究人员)作为一个领域的某些事情,确实需要与之斗争。
CommonPool建立在2014年至2022年之间刮擦的Web数据上,这意味着许多图像可能可以追溯到2020年以前的Chatgpt发布。因此,即使从理论上讲,有些人同意将其信息公开向网络上的任何人公开可用,他们也无法同意将其数据用于培训尚不存在的大型AI模型。
随着Web刮刀经常互相刮擦,最初由所有者上传到一个特定位置的图像通常会进入其他图像存储库中。Agnew说:“我可能会将某些内容上传到互联网上,然后一年左右,[我]想将其删除,但是[删除]不一定会再做任何事情了。”
研究人员还发现了许多儿童个人信息的例子,包括对出生证明,护照和健康状况的描述,但在情况下表明它们是出于有限的目的而共享的。
它确实阐明了AI系统的原始罪过,它是从公共数据中建立的,具有挖掘,具有误导性和危险的危险,这对于那些使用一种风险框架使用Internet的人,从来没有假设一个试图创建图像生成器的团队都会将其全部提升。”
最终,本文呼吁机器学习社区重新考虑不加区分的网络刮擦的共同做法,并列出可能违反PII在庞大的机器学习数据集中存在于PII所代表的当前隐私法,以及这些法律能力保护隐私的限制。
``我们在欧洲拥有GDPR,我们在加利福尼亚州有CCPA,但在美国仍然没有联邦数据保护法,这也意味着不同的美国人拥有不同的权利保护,荷兰议员转变为目前在斯坦福大学的Cyber Policy Center中心担任研究员Marietje Schaake。
此外,这些隐私法适用于符合某些规模和其他特征标准的公司。它们不一定适用于像负责创建和策划Datacomp Commonpool的研究人员一样。
甚至像加利福尼亚州的《消费者隐私法》这样的确实涉及隐私的州法律,也有公开可用信息的雕刻。机器学习的研究人员长期以来一直基于以下原则:如果它在互联网上可用,那么它是公共的,而不再是私人信息,但是Hong,Agnew及其同事希望他们的研究对这一假设挑战。”
``我们发现的是,公开可用的东西包括很多人可能会考虑私人的résumâ©s,照片,信用卡号,各种ID,您小时候的新闻故事,您的家庭博客。这些可能不是人们想要在任何地方使用任何地方的事情。”
沙克说,希望这项研究将引起警钟并创造变化。
本文以前误解了蒂法尼·李(Tiffany Li)的隶属关系。这已经解决了。