一个主要的AI培训数据集包含数百万个个人数据示例
2025-07-18 13:08:26
研究人员发现,最大的开源AI训练集之一Datacomp Commonpool包含数百万张具有个人身份信息(PII)的图像,包括护照,信用卡,出生证书和面孔。该研究在ARXIV上发表,表明,由于数据集的0.1%的审计有限,总共可能有数亿此类此类含PII的图像。该数据集在2014年至2022年之间从网络上刮下来,其中包括超过120亿张图像文本对,并被怀疑用于训练商业模型,例如稳定扩散和Midjourney。研究人员还发现,已有验证的身份文档和作业应用程序文件链接到真实人的在线定义,带来了很大的隐私风险。尽管Datacomp Common Pool创建者的努力使面孔模糊并检测PII,但研究表明,鉴于数据集的规模,这些措施是不够的。该研究强调了机器学习社区的必要性,以重新考虑偶然的网络刮擦实践,并提出了有关现有隐私法在保护AI培训集中使用的个人数据方面的有效性的问题。