同意培训人工智能。您是否可以控制是否 |通过斯蒂芬妮·柯默 |2024 年 10 月 - 迈向数据科学

2024-10-02 04:18:00 英文原文

同意训练人工智能

您是否应该控制有关您的信息是否被用于训练生成式 AI?

我相信很多读到这篇文章的人都听说过最近的争议,LinkedIn 显然开始默默地使用用户个人数据来培训大语言模型,而没有通知用户或更新他们的隐私政策以允许这样做。正如我当时指出的那样,考虑到我们对人工智能监管状况和公众关注点的了解越来越多,这让我感到非常震惊。在最近的新闻中,在线培训平台 Udemy 做了一些类似的事情,他们悄悄地为教师提供了一个小窗口,允许他们选择不将其个人数据和课程材料用于培训人工智能,并关闭了该窗口,不再允许选择退出。在这两种情况下,企业都选择使用被动选择加入框架,这有利有弊。

为了解释这些情况下发生的情况,让我们从一些关卡设置开始。Udemy 和 LinkedIn 等社交平台有两种与用户相关的一般内容。有个人数据,意味着您提供的信息(或他们做出有根据的猜测)可以单独或一起使用来在现实生活中识别您的身份。然后,还有您创建或发布的其他内容,包括您对其他人的帖子发表的评论或点赞、您为课程创建的幻灯片等。其中一些内容可能不符合个人数据的资格,因为它不可能单独识别您的身份。然而,这并不意味着它对您不重要,但数据隐私通常不涵盖这些内容。各个司法管辖区的法律保护(如果存在)通常涵盖个人数据,因此这就是我在这里要重点讨论的内容。

LinkedIn 故事

LinkedIn 针对一般内容(非个人数据)的权利制定了通用且非常标准的政策,他们获得非排他性权利,允许他们向用户公开这些内容,从而通常使他们的平台成为可能。

但是,有一项单独的政策管理数据隐私,因为它涉及您的个人数据而不是您发布的帖子,而这正是人工智能培训情况中存在问题的问题。今天(2024 年 9 月 30 日),它说:

<块引用>

我们如何使用您的个人数据将取决于您使用的服务、您使用这些服务的方式以及您在设置中所做的选择。我们可能会使用您的个人数据来改进、开发和提供产品和服务,开发和训练人工智能 (AI) 模型,开发、提供和个性化我们的服务,并借助人工智能、自动化系统和推理获得见解,以便我们的服务对您和其他人更加相关和有用。您可以在此处查看 LinkedIn 的 Responsible AI 原则,并在此处详细了解我们的生成式 AI 方法。详细了解我们可能做出的推论,包括您的年龄和性别以及我们如何使用它们。

当然,当他们开始使用你的个人数据进行人工智能模型训练时,他们并没有这么说。2024 年 9 月中旬的早期版本(感谢 Wayback Machine)是:

<块引用>

我们如何使用您的个人数据将取决于您使用的服务、您使用这些服务的方式以及您在设置中所做的选择。我们使用我们掌握的有关您的数据来提供和个性化我们的服务,包括借助自动化系统和我们做出的推论,以便我们的服务(包括广告)对您和其他人更加相关和有用。

理论上,在自动化系统的帮助下,我们所做的推论可以在某些方面得到扩展,以包括人工智能,但这对大多数用户来说很难接受。然而,在 9 月 18 日更改此文本之前,人们已经注意到 LinkedIn 网站上添加了一个非常深埋的选择退出开关,如下所示:

(我的开关处于关闭状态,因为我更改了它,但默认设置为打开。)

这强烈表明,在服务条款更新之前,LinkedIn 已经在使用人们的个人数据和内容进行生成式人工智能开发。当然,我们不能确定,但​​很多用户都有疑问。

Udemy 故事

对于 Udemy 的案例,事实略有不同(正如我们所说,新的事实正在被发现),但潜在的问题是相似的。Udemy 教师和学生向 Udemy 平台提供大量个人数据以及他们编写和创建的材料,Udemy 提供基础设施和协调以允许课程进行。

Udemy 在 8 月份发布了一项教师生成人工智能政策,其中包含了有关他们想要拥有的数据权利的大量细节,但对于他们的人工智能程序实际上是什么的细节却非常缺乏。通过阅读该文档,我非常不清楚他们计划训练或已经在训练哪些模型,或者他们期望达到什么结果。它不区分个人数据(例如讲师的肖像或个人详细信息)和其他内容(例如讲座记录或评论)。显然,这项政策涵盖了个人数据,他们在隐私政策中也对此持开放态度。在我们使用您的数据的目的下,我们发现:

<块引用>

改进我们的服务并开发新产品、服务和功能(所有数据类别),包括通过使用符合讲师 GenAI 政策(讲师共享内容)的人工智能;

它们引用的所有数据类别包括:

  • 帐户数据:用户名、密码,但对于讲师而言,还包括政府身份证信息、验证照片、出生日期、种族/民族和电话号码(如果您提供)
  • 个人资料数据:照片、标题、传记、语言、网站链接、社交媒体个人资料、国家/地区或其他数据。
  • 系统数据:您的 IP 地址、设备类型、操作系统类型和版本、唯一设备标识符、浏览器、浏览器语言、域和其他系统数据以及平台类型。
  • 大致地理数据:根据您的 IP 地址计算得出的国家/地区、城市和地理坐标。

但所有这些类别都可能包含个人数据,有时甚至是 PII,这些数据受到世界各地许多司法管辖区的全面数据隐私立法的保护。

生成式人工智能举措似乎从今年夏天开始悄然推出,与 LinkedIn 一样,它有一个选择退出机制,因此不想参与的用户必须采取积极措施。至少据我们所知,他们似乎并不是在更改隐私政策之前就开始了这一切,但 Udemy 采取了一个不寻常的举动,选择将选择退出设置为有时间限制的事情,他们的教练必须等到每年指定一段时间对他们的参与做出改变。这已经开始让用户感到措手不及,特别是因为这个时间窗口的通知显然没有广泛共享。从美国数据隐私的角度来看,Udemy 并没有做任何新的或意想不到的事情,直到他们实施了这种奇怪的选择退出时间限制,前提是他们更新了隐私政策,并在用户开始接受个人数据培训之前至少做了一些尝试来通知用户。

(还有一个问题是教师在平台上对其自己的创作的知识产权权利,但这超出了我的文章范围,因为知识产权法与隐私法有很大不同。)

道德规范

根据这些事实,并推断 LinkedIn 实际上在通知人们之前就开始使用人们的数据来训练 GenAI 模型,那么我们该怎么办呢?如果您是这些平台之一的用户,这有关系吗?你应该关心这些吗?

我建议有几个重要的原因来关心这些数据使用的发展模式,无论您个人是否介意将数据包含在训练集中。

您的个人数据会带来风险。

您的个人数据对这些公司很有价值,但也构成风险。当您的数据被移动并用于多种目的(包括训练人工智能)时,随着复制数量的增加,不良行为者的数据泄露或数据丢失的风险也会增加。在生成人工智能中,还存在这样的风险:训练有素的大语言模型可能会意外地在其输出中直接发布个人信息。在训练中使用您的数据的每个新模型都有可能以这些方式意外暴露您的数据,特别是因为许多机器学习领域的人不幸地不了解保护数据的最佳实践。

应认真对待知情同意原则。

知情同意是生物医学研究和医疗保健领域众所周知的基本原则,但在其他领域并没有得到太多关注。这个想法是,每个人都拥有权利,未经个人同意,在充分掌握相关事实的情况下,这些权利不应被剥夺,以便他们能够谨慎地做出决定。如果我们认为保护您的个人数据是这组权利的一部分,那么在此类情况下应该需要知情同意。如果我们放任公司忽视这些权利,我们就开创了一个先例,表明这些违规行为并不是什么大问题,更多的公司将继续采取同样的行为。

深色图案可能构成强制。

在社会科学中,有很多关于选择加入和选择退出作为框架的学术研究。通常,提出像这样的选择退出这样的敏感问题意味着人们很难做出真正的选择,要么是因为它难以导航,要么是因为他们甚至没有意识到自己有一个选择。实体有能力通过构建人们主张其选择的界面来鼓励甚至强制行为朝着有利于业务的方向发展。这种带有强制倾向的设计,就是我们所说的在线用户体验设计的暗模式。当您在 Udemy 层上添加限制选择退出的时间窗口时,这会变得更加成问题。

这涉及图像、多媒体以及文本。

每个人可能不会立即想到这一点,但我只是想强调,当您将个人资料照片或任何类型的个人照片上传到这些平台时,这些照片就会成为他们收集的有关您的数据的一部分。即使你可能不太关心你对 LinkedIn 帖子的评论被扔进模型训练过程,你可能更关心你的脸被用来训练生成深度伪造品的生成人工智能模型。也许不是!但当您考虑将您的数据用于生成人工智能时,请记住这一点。

做什么?

不幸的是,目前受影响的用户在应对这些令人厌恶的商业行为时几乎没有选择。

如果您意识到您的数据正被用于训练生成式人工智能,而您不希望这种情况发生,那么您可以选择退出(如果企业允许)。但是,如果(如 Udemy 的情况)他们限制该选项,或者根本不提供该选项,则您必须考虑监管空间。许多美国人不太可能拥有太多追索权,但像 CCPA 这样的全面数据隐私法经常会涉及到这类事情。(请参阅 IAPP 跟踪器来检查您所在州的状态。)CCPA 通常允许选择退出框架,其中用户不采取任何操作将被解释为同意。然而,CCPA 确实要求选择退出不会变得异常困难。例如,当您能够通过电子邮件给予肯定同意时,您不能要求以纸质信件的形式发送选择退出。公司还必须在 15 天内回复选择退出请求。Udemy 将选择退出限制在每年一次的特定时间范围内是否符合要求?

但是让我们退后一步。如果你不知道你的数据正在被用来训练人工智能,而你事后才发现,那么你会做什么?嗯,CCPA 允许被动同意,但它确实要求您了解个人数据的使用情况。隐私政策中的披露通常已经足够好了,因此考虑到 LinkedIn 一开始并没有这样做,这可能会引起一些法律挑战。

值得注意的是,欧盟居民可能不必担心这些,因为保护他们的法律更加清晰和一致。我之前写过《欧盟人工智能法案》,该法案对人工智能的应用有相当多的限制,但它并没有真正涵盖同意或如何使用数据进行训练。相反,GDPR 更有可能保护人们免受这里发生的各种事情的影响。根据该法律,欧盟居民必须被告知并要求他们积极确认他们的同意,而不仅仅是给予选择退出的机会。他们还必须有能力撤销对其个人数据使用的同意,我们不知道此类行动的时限是否符合要求,因为 GDPR 要求停止处理某人个人数据的请求必须在一个月。

经验教训

除了 Udemy 和 LinkedIn 正在训练生成式 AI 模型的总体想法之外,我们并不清楚 Udemy 和 LinkedIn 实际上正在做什么,但我认为我们可以从这两个新闻报道中学到的一件事是,保护个人数据如果没有政府参与,权利就不能让位于企业利益。对于那些小心翼翼地通知客户并让选择退出变得容易的有道德的企业来说,除非人们的权利受到强制执行的保护,否则还有许多其他企业会绕过规则并采取最低限度或更少的做法。

请访问 www.stephaniekirmer.com 阅读我的更多作品。

进一步阅读

https://www.datagrail.io/blog/data-privacy/opt-out-and-opt-in-consent-explained

隐私政策

https://web.archive.org/web/20240917144440/https://www.linkedin.com/legal/privacy-policy#use

https://www.linkedin.com/blog/member/trust-and-safety/updates-to-our-terms-of-service-2024

https://www.linkedin.com/legal/privacy-policy#use

https://www.udemy.com/terms/privacy/#section1

关于《同意培训人工智能。您是否可以控制是否 |通过斯蒂芬妮·柯默 |2024 年 10 月 - 迈向数据科学》
暂无评论

摘要

同意训练人工智能您是否应该控制有关您的信息是否被用于训练生成人工智能?生成式人工智能举措似乎从今年夏天开始悄然推出,与 LinkedIn 一样,它有一个选择退出机制,因此不想参与的用户必须采取积极措施。从美国数据隐私的角度来看,Udemy 并没有做任何新的或意想不到的事情,直到他们实施了这种奇怪的选择退出时间限制,前提是他们更新了隐私政策,并在用户开始接受个人数据培训之前至少做了一些尝试来通知用户。他们还必须有能力撤销对其个人数据使用的同意,我们不知道此类行动的时限是否符合要求,因为 GDPR 要求停止处理某人个人数据的请求必须在一个月。请访问 www.stephaniekirmer.com 阅读我的更多作品。