作者:Kyle Wiggers
星期天,加州州长加文·纽森签署了一项账单要求开发生成式AI系统的公司公布他们用于训练系统的数据的高层次概述。除此之外,摘要还必须涵盖数据的所有者以及它是如何获取或授权的,还包括是否包含任何受版权保护的信息或个人资料。
很少有人工智能公司愿意表明他们是否会遵守。
TechCrunch 向人工智能领域的各大玩家,包括 OpenAI、Anthropic、Microsoft、Google、Amazon、Meta 以及 Stability AI、Midjourney、Udio、Suno、Runway 和 Luma Labs 等初创公司进行了咨询。不到一半的受访者给出了回应,其中一家供应商——微软——明确拒绝评论。
只有Stability、Runway和OpenAI告知TechCrunch他们会遵守AB-2013。
“OpenAI在其运营的司法管辖区(包括这里)遵守法律,”一位OpenAI发言人表示。Stability的一位发言人说该公司支持“在保护公众的同时又不遏制创新”的审慎监管。
说起来,AB-2013的披露要求并不会立即生效。虽然这些要求适用于在2022年1月或之后发布的系统——比如ChatGPT和Stable Diffusion等——但公司直到2026年1月才需要开始发布训练数据摘要。该法律仅适用于向加利福尼亚人提供的系统,这也留下了一些回旋余地。
但供应商对此事保持沉默可能还有另一个原因,这与大多数生成式AI系统训练的方式有关。
训练数据经常来自网络。供应商从网站上抓取大量的图片、歌曲、视频等资料,并用这些资料来训练他们的系统。
几年前,AI开发人员列出他们训练数据的来源是标准做法,通常是在伴随模型发布的技术论文中。例如,谷歌曾经透露,它用其图像生成模型系列的一个早期版本进行过训练。图片,在公共的LAION数据集。许多更老的 论文提及The Pile,这是一个开源的训练文本集合,其中包括学术研究和代码库。
在今天的激烈市场竞争中,训练数据集的构成被视为一种竞争优势,公司们引用此文献作为他们不予披露的主要原因之一。但训练数据的细节也可能使开发人员陷入法律纠纷。LAION链接到受版权保护的以及侵犯隐私的图像,而The Pile包含书籍3一个包含斯蒂芬·金和其他作者盗版作品的图书馆。
已经有了一定的数量诉讼 结束培训数据滥用等案件每月都在提交。
作者们以及出版商 索赔OpenAI、Anthropic和Meta使用了受版权保护的书籍——其中一些来自Books3——进行训练。音乐公司已经对Udio和Suno采取行动。起诉;向法院申请;吸引(某人的心)因涉嫌在未补偿音乐人的前提下使用歌曲进行训练。艺术家们有提起了集体诉讼针对Stability和Midjourney所称的数据抓取行为相当于盗窃的行为提出诉讼。
很容易就能看出AB-2013法案是如何给试图避免法庭诉讼的供应商带来问题的。该法律要求公布一系列可能具有潜在不利影响的关于训练数据集的详细信息,包括注明数据集首次使用的时间以及是否仍在进行数据收集的通知。
AB-2013的范围相当广泛。任何“实质性修改”人工智能系统的实体——即对其进行微调或重新训练的实体——都受到此规定约束。也被迫发布他们用于训练的数据信息。该法律有几项 carve-outs(特例、例外条款),但它们主要适用于网络安全和国防领域使用的AI系统,例如用于“国家领空内飞机操作”的AI系统。
当然,许多供应商相信被称为的教义合理使用提供法律保护,并且他们在法庭上主张这一点以及在公共的 陈述句一些公司,如Meta和谷歌,有 更改了他们的平台设置和服务条款以允许他们获取更多用户数据用于训练。
受到竞争压力的驱使,并且赌注于最终公平使用辩护将会胜出,一些公司自由地在受知识产权保护的数据上进行训练。报告路透社披露,Meta曾一度在其律师的警告下仍使用受版权保护的书籍进行AI训练。证据 rằng Runway 使用了从 Netflix 和迪士尼获取的电影来训练其视频生成系统。而 OpenAI据报道在未告知创作者的情况下转录YouTube视频以开发模型,包括GPT-4.
正如我们所知,写于之前,有一种结果是生成式AI供应商可以免于承担责任,无论是否披露系统训练数据。法院可能会站在合理使用支持者的立场上,并决定生成式AI是足够变革性的——而不是抄袭引擎纽约时报以及其他原告声称它是这样的。
在更为戏剧化的情景下,AB-2013可能导致供应商在加州限制某些型号的供应,或者只为加州居民提供经过公平使用和授权数据集训练的模型版本。一些供应商可能会决定,处理AB-2013最安全的方式是避免做出可能引发诉讼的披露。
假设该法律没有被挑战和/或暂停,我们将在大约一年后AB-2013截止日期时有一个清晰的图景。