作者声称，扎克伯格批准 Meta 使用“盗版”书籍来训练人工智能模型

作者：Dan Milmo

一群作者在一份报告中声称，马克·扎克伯格批准 Meta 使用受版权保护的书籍的“盗版”版本来训练该公司的人工智能模型。美国法院备案。

引用内部元通信方面，该文件声称，这家社交网络公司的首席执行官支持使用 LibGen 数据集，这是一个庞大的在线图书档案，尽管该公司的人工智能执行团队内部警告说，它是一个数据集——我们知道是盗版的。

文件显示，内部消息称，使用包含盗版材料的数据库可能会削弱 Facebook 和 Instagram 所有者与监管机构的谈判。– 媒体报道称我们使用了已知被盗版的数据集，例如 LibGen，这可能会损害我们与监管机构的谈判地位。 –

美国作家塔内西斯·科茨、喜剧演员萨拉·西尔弗曼和其他起诉 Meta 侵犯版权的作者在周三向加州联邦法院公开的一份文件中提出了这些指控。

作者2023 年起诉 Meta，认为这家社交媒体公司滥用他们的书籍来训练 Llama，这是一种为其聊天机器人提供动力的大型语言模型。

Library Genesis（或 LibGen）数据集是一个起源于俄罗斯的“影子图书馆”，声称包含数百万本小说、非小说类书籍和科学杂志文章。去年，纽约联邦法院命令 LibGen 的匿名运营商向一组出版商支付 3000 万美元（2400 万英镑）版权侵权损害赔偿。

在训练人工智能模型时使用受版权保护的内容已成为一种趋势法律战场在开发诸如 ChatGPT 聊天机器人等生成式人工智能工具时，创意专业人士和出版商警告说，未经许可使用他们的作品是一种行为危及他们的生计和商业模式。

该文件引用了一份备忘录，其中提到了马克·扎克伯格的名字缩写，并指出“在升级到 MZ 后，Meta 的人工智能团队已被批准使用 LibGen”。

该文件还援引内部通信内容称，Meta 工程师讨论了访问和审查 LibGen 数据的问题，但犹豫是否要启动该流程，因为“torrenting”（点对点共享文件的术语）来自“a [Meta-”]。拥有]公司笔记本电脑感觉不对。

作者本周辩称，证据支持了他们的侵权主张，并有理由重新审理他们的 CMI 案件并增加新的计算机欺诈指控。

查布里亚在周四的听证会上表示，他将允许作者提交修改后的投诉，但对欺诈和 CMI 索赔的实质表示怀疑。

已联系 Meta 征求意见。

路透社对本文做出了贡献

OC