扎克伯格似乎知道盗版图书馆上经过元训练的人工智能

针对该公司的诉讼中新近公开的文件显示了该公司在构建最新技术方面走了多远

这人工智能随着科技公司训练机器人，匆忙带来了数据版权和所有权方面的棘手问题聊天GPT现有文本，但似乎元当他们致力于将这些工具集成到Facebook和Instagram。

作为首次透露小说家克里斯托弗·戈尔登（Christopher Golden）和理查德·卡德雷（Richard Kadrey）以及喜剧演员的律师提出的一项动议莎拉西尔弗曼正在对 Meta 提起集体诉讼，指控其未经许可使用其受版权保护的作品，这家科技巨头的员工就利用危险资源可能引发的丑闻进行了坦诚的对话：Library Genesis 或 LibGen，这是一个大型数据库。所谓的“影子图书馆”，其中包含可免费下载的电子书和 PDF，其中包括其他付费研究和学术文章。在这些交流中，Meta 的工程师将 LibGen 视为“
我们知道数据集是盗版的，但首席执行官表示马克·扎克伯格已批准将其用于训练大型语言模型 Llama 的下一代版本。

现在，根据美国加利福尼亚州北区地方法院法官文斯·查布里亚 (Vince Chhabria) 的法庭命令，那些先前保密的内部对话记录已被公开。未密封的，并且似乎证实了扎克伯格决定批准转让盗版的、受版权保护的 LibGen 数据以改进 Llama——尽管担心会出现强烈反对。产品管理总监 Sony Theakanath 在给 Meta 人工智能研究副总裁 Joelle Pineau 的电子邮件中写道：“在之前升级到 MZ [马克·扎克伯格]之后，GenAI 已被批准在 Llama 3 中使用 LibGen [……] 以及一些商定的缓解措施。”该说明指出，包含 LibGen 材料将有助于他们达到某些性能基准，并提到了行业传言：其他人工智能公司，包括 OpenAI 和 Mistral AI，正在“使用该库作为他们的模型”。在同一封电子邮件中，Theakanath 写道，在任何情况下，Meta 都不会公开披露其对 LibGen 的使用。

编辑精选

同一封电子邮件列出了如果“外部各方”推断出 LibGen 宝藏构成了 Llama 训练数据的一部分，可能会带来的法律曝光和潜在的负面媒体关注：“版权和知识产权是最重要的考虑因素。”文件指出，世界各地的立法者，包括美国和欧盟的立法者。– 美国立法者在最近的一次听证会上对人工智能开发人员使用盗版网站进行培训表示担忧。目前还不清楚，如果这种担忧蔓延开来，他们会采取什么立法行动，但这反映了一些负面游说权利人一直在做的事情，与我们就此主题的诉讼有关（大意是，这是“被盗的”）然后污染该模型的输出的内容）。

Meta 没有立即回复对这些内部通信发表评论的请求。

在未密封文档的其他地方，Meta 员工描述了处理和过滤来自 LibGen 文本的方法，以删除“样板文件”版权标志，例如“ISBN”、“版权”、““©、”和“保留所有权利。”题为“备忘录”的作者– 对 LibGen-SciMag 的观察 –（“SciMag – 是图书馆的科学期刊目录）报告说，材料的质量很高，文档很长，因此应该是值得学习的大量数据，特别是高度专业化的知识！ - 同一份备忘录建议尝试 - 删除更多版权标头和文档标识符——似乎有更多证据表明 Meta 在利用未经许可使用的技术文本缓存时试图掩盖其踪迹。

其他透露信息显示，Meta 的人工智能研究团队和高管正在讨论获取 LibGen 数据集的最佳方法，除了直接下载种子或通过点对点文件共享从公司的 IP 地址下载数据集之外。在某些时候，员工们想知道这是否被允许。“我认为从公司笔记本电脑上下载种子感觉不太好，”一位工程师在 2023 年 4 月写道，并添加了笑脸表情符号。（后来的一封电子邮件承认“SciMag”数据确实已被下载。）2023 年 10 月，Meta 的 GenAI 副总裁艾哈迈德·阿尔-达勒 (Ahmad Al-Dahle) 在发给 Llama 研究人员的消息中表示，他已经“扫清了使用 LibGen 的道路，并“自上而下推动”合并其他数据集以改进Llama 并赢得人工智能竞赛。

OC

扎克伯格似乎知道盗版图书馆上经过元训练的人工智能

编辑精选

相关内容

关于《扎克伯格似乎知道盗版图书馆上经过元训练的人工智能》的评论

发表评论

摘要

相关新闻

相关讨论