作者:Miles Klee
针对该公司的诉讼中新近公开的文件显示了该公司在构建最新技术方面走了多远
这人工智能随着科技公司训练机器人,匆忙带来了数据版权和所有权方面的棘手问题聊天GPT现有文本,但似乎元当他们致力于将这些工具集成到Facebook和Instagram。
作为首次透露小说家克里斯托弗·戈尔登(Christopher Golden)和理查德·卡德雷(Richard Kadrey)以及喜剧演员的律师提出的一项动议莎拉西尔弗曼正在对 Meta 提起集体诉讼,指控其未经许可使用其受版权保护的作品,这家科技巨头的员工就利用危险资源可能引发的丑闻进行了坦诚的对话:Library Genesis 或 LibGen,这是一个大型数据库。所谓的“影子图书馆”,其中包含可免费下载的电子书和 PDF,其中包括其他付费研究和学术文章。在这些交流中,Meta 的工程师将 LibGen 视为“
我们知道数据集是盗版的,但首席执行官表示马克·扎克伯格已批准将其用于训练大型语言模型 Llama 的下一代版本。
现在,根据美国加利福尼亚州北区地方法院法官文斯·查布里亚 (Vince Chhabria) 的法庭命令,那些先前保密的内部对话记录已被公开。未密封的,并且似乎证实了扎克伯格决定批准转让盗版的、受版权保护的 LibGen 数据以改进 Llama——尽管担心会出现强烈反对。产品管理总监 Sony Theakanath 在给 Meta 人工智能研究副总裁 Joelle Pineau 的电子邮件中写道:“在之前升级到 MZ [马克·扎克伯格]之后,GenAI 已被批准在 Llama 3 中使用 LibGen [……] 以及一些商定的缓解措施。”该说明指出,包含 LibGen 材料将有助于他们达到某些性能基准,并提到了行业传言:其他人工智能公司,包括 OpenAI 和 Mistral AI,正在“使用该库作为他们的模型”。在同一封电子邮件中,Theakanath 写道,在任何情况下,Meta 都不会公开披露其对 LibGen 的使用。
同一封电子邮件列出了如果“外部各方”推断出 LibGen 宝藏构成了 Llama 训练数据的一部分,可能会带来的法律曝光和潜在的负面媒体关注:“版权和知识产权是最重要的考虑因素。”文件指出,世界各地的立法者,包括美国和欧盟的立法者。– 美国立法者在最近的一次听证会上对人工智能开发人员使用盗版网站进行培训表示担忧。目前还不清楚,如果这种担忧蔓延开来,他们会采取什么立法行动,但这反映了一些负面游说权利人一直在做的事情,与我们就此主题的诉讼有关(大意是,这是“被盗的”)然后污染该模型的输出的内容)。
Meta 没有立即回复对这些内部通信发表评论的请求。
在未密封文档的其他地方,Meta 员工描述了处理和过滤来自 LibGen 文本的方法,以删除“样板文件”版权标志,例如“ISBN”、“版权”、““©、”和“保留所有权利。”题为“备忘录”的作者– 对 LibGen-SciMag 的观察 –(“SciMag – 是图书馆的科学期刊目录)报告说,材料的质量很高,文档很长,因此应该是值得学习的大量数据,特别是高度专业化的知识! - 同一份备忘录建议尝试 - 删除更多版权标头和文档标识符——似乎有更多证据表明 Meta 在利用未经许可使用的技术文本缓存时试图掩盖其踪迹。
其他透露信息显示,Meta 的人工智能研究团队和高管正在讨论获取 LibGen 数据集的最佳方法,除了直接下载种子或通过点对点文件共享从公司的 IP 地址下载数据集之外。在某些时候,员工们想知道这是否被允许。“我认为从公司笔记本电脑上下载种子感觉不太好,”一位工程师在 2023 年 4 月写道,并添加了笑脸表情符号。(后来的一封电子邮件承认“SciMag”数据确实已被下载。)2023 年 10 月,Meta 的 GenAI 副总裁艾哈迈德·阿尔-达勒 (Ahmad Al-Dahle) 在发给 Llama 研究人员的消息中表示,他已经“扫清了使用 LibGen 的道路,并“自上而下推动”合并其他数据集以改进Llama 并赢得人工智能竞赛。
难怪随着版权诉讼的发现期结束,Meta 会反对这些讨论的解封和取消编辑:它们似乎损害了该公司的论点,即“使用文本对语言进行统计建模并生成语言”。原创表达——属于合理使用的法律范畴,或者未经许可允许限制使用受版权保护的材料,正如其律师在驳回诉讼的动议中所说的那样。此外,原告律师在最新提交的文件中记录,扎克伯格本人在最近的一份证词中表示,他们最新修改的起诉书中描述的盗版行为将引发“大量危险信号”,并且“看起来像是一个危险信号”。坏事。”
当然,Meta,周二宣布将削减5% 的劳动力被认为是“表现最差的员工”或大约 3,600 名员工的公司并不是唯一一家被指控藐视(或规避)版权法的硅谷巨头。这次集体诉讼可能是一个风向标许多其他套装在照片、艺术、音乐、新闻、书籍等方面与人工智能公司的斗争取得了进展。但只要科技公司还在急切地寻找更多的东西供其机器人复制和重新混合,他们就将永远依赖原始内容的创造者:人类。