作者:#author.fullName}
4月,书籍作者和出版商抗议了元的使用受版权保护的书籍来培训AI
Vuk Valcic/Alamy Live News
由于美国和英国的法院决定是否可以合法地在受版权保护的书籍上培训其人工智能模型,因此数十亿美元受到威胁。作者和出版商已经就此问题提起了多项诉讼,研究人员表明,至少有一个AI模型不仅在其培训数据中使用了流行的书籍,而且还记住了他们的内容。
许多持续的争议围绕着AI开发人员是否享有未经允许使用受版权保护的作品的合法权利。先前的研究发现,在流行的AI聊天机器人和其他生成的AI程序背后的许多大语言模型(LLM)都接受了Books3的数据集的培训,该数据集包含近200,000本受版权保护的书籍,其中包括许多盗版书籍。对该材料训练模型的AI开发人员认为,他们没有违反法律,因为LLM根据其培训来提出新的单词组合,改变而不是复制受版权保护的工作。
但是现在,研究人员已经测试了多个模型,以查看他们可以逐字吐出的训练数据中的多少。他们发现,许多模型在培训数据中没有保留书籍的确切文本,但是元模型之一已经记住了几乎整个某些书籍。如果法官对公司的裁决,研究人员估计这可能会使元责任至少赔偿10亿美元。
一方面,这意味着AI模型不仅是窃机器,而且正如某些人所说的那样,这也意味着他们不仅要学习单词之间的一般关系,还意味着他们做的不仅仅是窃机器。”马克·莱姆利在加利福尼亚的斯坦福大学。答案有所不同以建模和预订的模型这一事实意味着,很难设定明确的法律规则,以在所有情况下起作用。”
Lemley先前在称为Kadrey V Meta Platforms的生成AI版权案例中为Meta辩护。曾被用来训练元AI模型的书籍的作者提起了针对违反版权的技术巨头的集体诉讼。在加利福尼亚北部地区,仍在审理此案。
2025年1月,莱姆利宣布尽管他说他仍然相信该公司应该赢得此案,但他已经将Meta作为客户丢弃。Emil Vazquez元发言人说,“对版权材料的合理使用对于开发公司的AI模型至关重要。他说:“我们不同意原告的主张,完整的记录讲述了一个不同的故事。”
在这项最新研究中,Lemley和他的同事通过将小书摘录分为两个部分 - 前缀和后缀部分来测试AI对书籍的记忆,并查看前缀提示的模型是否会以后缀做出响应。例如,他们从F. Scott Fitzgerald的一句话中分开了一句话伟大的盖茨比进入前缀 - 他们是粗心的人,汤姆和雏菊 - 他们砸碎了东西和生物,然后撤退了”,后缀又回到了他们的金钱或巨大的粗心大意,或者是将他们保持在一起的任何东西,让其他人清理自己的混乱。”
根据他们的发现,研究人员估计了每个AI模型逐字完成摘录的可能性。然后,他们将这些概率与模型的几率进行了比较。
摘录包括来自36本受版权保护的书籍的大量文本,包括乔治·R·马丁(George R. Martin)等流行的书籍权力游戏和谢丽尔·桑德伯格(Sheryl Sandberg)倾斜。研究人员还测试了原告在Kadrey v Meta Platforms案中撰写的书籍的摘录。
研究人员在13个开源AI模型上进行了这些实验,包括由Meta,Google,DeepSeek,Eleutherai和Microsoft开发和发布的模型。除了Meta之外,大多数公司都没有回应置评请求,Microsoft拒绝置评。
这样的测试表明,元的Llama 3.1 70b模型已经记住了J. K. Rowling的大部分第一本书哈利·波特系列以及伟大的盖茨比和乔治·奥威尔的反乌托邦小说1984。其他大多数模型都记住了很少的书,包括诉讼原告撰写的样本书。元拒绝对这些结果发表评论。
研究人员估计,AI模型侵犯了仅3%的Books3数据集的版权,可能会导致法定损害赔偿奖,即近10亿美元,甚至可能是基于AI开发人员利润的较大奖项,甚至可能是较大的奖项。
该技术可能是确定AI记忆程度的好法医工具。兰迪·麦卡锡(Randy McCarthy)在俄克拉荷马州的Hall Estill律师事务所。但是,没有解决公司是否可以通过美国合法地对受版权保护的作品进行合法培训其AI模型。
麦卡锡(McCarthy)指出,人工智能公司通常承认对受版权保护的材料进行培训。问题是,他们有权这样做吗?”他问。
另一方面,在英国,从版权的角度来看,记忆发现可能非常重要。罗伯特·兰斯(Robert Lands)在伦敦的霍华德·肯尼迪律师事务所。英国版权法遵循“公平交易”概念,该概念比美国公平使用学说提供了侵犯版权的狭窄例外。他说,因此记住的盗版书籍的AI模型不太可能有资格获得该例外。
主题: