2025-02-21 23:15:38 · 英文原文

法院文件显示，使用受版权保护的内容进行人工智能培训讨论的元工作人员|TechCrunch

作者：Kyle Wiggers

多年来，根据周四未密封的法院文件，使用法律上可疑的手段获得了培训公司AI模型的受版权保护的作品进行了内部讨论。

这些文件是由原告在案件中提交的，Kadreyv。Meta是许多AI版权纠纷之一，逐渐通过美国法院系统。被告Meta声称，对IP保护作品（尤其是书籍）的培训模型是合理使用的。

诉讼中提交的先前材料称，元首席执行官马克·扎克伯格（MarkZuckerbergâ）让Meta的AI团队可以训练受版权保护的内容那META与书籍出版商停止了AI培训数据许可谈判。但是，新文件（其中大部分显示了元员工之间的内部工作聊天中的一部分），描绘了最清晰的图片，即元数据可能如何使用受版权保护的数据来训练其模型，包括该公司的模型骆驼家庭。

在一次聊天中，Meta的员工，包括Meta的Llama模型研究团队高级经理Melanie Kambadur，讨论了有关他们知道可能在法律上感到困惑的作品的培训模型。

'意见将是（在问宽恕的行列中，而不是为了许可）：我们试图获取书籍并将其升级给执行者，以便他们打电话，” Xavier写道。元研究工程师马丁内特（Martinet）在2023年2月的聊天中根据文件。他的原因是他们为[sic]设置这个代人的原因：因此，我们可以较小的风险。”

马丁内特（Martinet）提出了以零售价购买电子书以建立培训套装的想法，而不是与单独的书籍出版商削减许可协议。在另一位员工指出，使用未经授权的，受版权保护的材料可能是法律挑战的理由，马丁内特又翻了一番，认为一家大量的创业公司可能已经在使用盗版书籍进行培训。

我的意思是，最糟糕的情况：我们发现这终于可以，而一家廉价的启动[sic]只是盗版了关于bittorrent的大量书籍，”马丁内特写道，根据文件。再次[m] y 2美分：试图直接与出版商打交道很长一段时间

在同一聊天中，肯巴杜尔（Kambadur律师的保守派比过去的保守派少。

肯巴杜尔说：“是的，我们绝对需要获得有关公开数据的许可或批准。”根据文件。[d]现在是我们有更多的钱，更多的律师，更多的Bizdev帮助，快速追踪/升级速度的能力，律师在批准方面的保守程度较低。”

利比根谈论

在文件中的另一个工作聊天中继中，坎巴杜尔讨论了可能使用Libgen，它是一个链接的聚合器，该链接可以访问发布者受版权保护的作品，以替代Meta可能许可的数据源。

利比根（Libgen）被起诉多次，被命令关闭，并罚款数千万美元以侵犯版权。坎巴杜尔的同事之一用屏幕截图响应在包含摘要的Libgen的Google搜索结果中，Libgen是不合法的。

META中的一些决策者似乎对未能使用Libgen进行模型训练的印象可能会严重伤害Meta在AI种族中的竞争力，根据文件。

Meta产品管理总监Sony Theakanath在发送给Meta AI副总裁Joelle Pineau的电子邮件中，称Libgen符合所有类别的SOTA数字的必不可少艺术（SOTA）AI模型和基准类别。

Theakanath还概述了旨在帮助减少元法律曝光的电子邮件中的缓解，包括从Libgen中删除清晰标记为盗版/被盗的数据，并且根本没有公开引用使用。正如Theakanath所说，我们不会透露用于训练的Libgen数据集的使用。

在实践中，这些缓解需要通过libgen文件梳理诸如被盗或盗版的单词。根据文件。

在工作聊天，坎巴杜尔提及该元AI团队还调整了模型，以避免IP风险提示，即配置了模型以拒绝回答诸如复制Harry Potter和Harry Potter和巫师的石头或告诉我您接受了哪些电子书。

文件包含其他启示，这意味着元可能已经刮擦了reddit数据对于某种类型的模型培训，可能是通过模仿第三方应用程序的行为按档。值得注意的是，Reddit说2023年4月，它计划开始向AI公司收取访问模型培训的数据。

在一个日期为2024年3月的聊天Meta的生成AI org产品管理总监Chaya Nayak说，Meta领导人正在考虑对培训集的过去决定，包括不使用Quora内容或持牌书籍和科学文章的决定，确保公司的模型具有足够的培训数据。

Nayak暗示Meta的第一方培训数据集 - Facebook和Instagram帖子，从元平台上的视频转录的文字以及某些商业元消息仅仅是足够的。她写道，需要更多数据。

自从该案于2023年在美国加利福尼亚北部地区的美国地方法院提起以来，Kadrey诉Meta诉Meta的原告已多次修改其投诉。某些带有版权书籍的盗版书籍可用于确定与出版商签订许可协议是否有意义。”

为了表明该公司有多高的法律股份，公司添加了律师事务所保罗·魏斯（Paul Weiss）的两名最高法院诉讼人都涉及该案的辩护团队。

元没有立即回应置评请求。

关于《法院文件显示，使用受版权保护的内容进行人工智能培训讨论的元工作人员|TechCrunch》的评论

暂无评论

发表评论

摘要

法院在周四未密封的文件显示，元员工使用了通过可疑手段获得的受版权保护的作品来培训AI模型，包括Llama家族中的模型。包括作者莎拉·西尔弗曼（Sarah Silverman）和塔尼希西·科茨（Ta-Nehisi Coates）在内的原告反对梅塔（Meta）的合理使用声明。这些文件显示了内部讨论，其中获取电子书或使用Libgen（汇总了与受版权保护的作品的链接的平台）被认为具有法律风险，以获得竞争优势。Meta的决策者似乎认为不使用Libgen可能会损害AI发展中的竞争力。讨论还表明，刮擦Reddit数据以进行模型培训，从而提出了进一步的版权问题。

OC

法院文件显示，使用受版权保护的内容进行人工智能培训讨论的元工作人员|TechCrunch

利比根谈论

关于《法院文件显示，使用受版权保护的内容进行人工智能培训讨论的元工作人员|TechCrunch》的评论

发表评论

摘要

相关新闻

相关讨论