为什么《纽约时报》的律师在一间秘密房间里检查OpenAI的代码

2024-10-10 15:01:00 英文原文

作者:Jacob Shamsian

  • 《纽约时报》的律师正在仔细审查ChatGPT的源代码和训练材料。
  • 出版商和作者提出的版权案件正在试图弄清楚AI是如何训练来处理创意作品的。
  • 这些诉讼可能开辟一条前进的道路,就像二十年前Napster的法律纠纷所做的一样。

感谢注册!

在您出行时,通过个性化 feeds 访问您最喜欢的主题。

点击“注册”,即表示您同意我们的服务条款以及隐私政策您可以在任何时候通过访问我们的偏好设置页面或点击电子邮件底部的“取消订阅”来选择退出。

在美国某个安全房间里的一个未连接互联网的计算机上存放着ChatGPT的源代码。

它将由《纽约时报》的律师进行检查。

根据联邦法官的命令,律师只能在向安保人员出示政府颁发的身份证明后进入房间。他们被禁止携带自己的手机、闪存驱动器或其他任何电子设备。他们会得到一台没有连接互联网的电脑以及一个文字处理程序。每次会面结束后,他们的笔记可以下载到另一台电脑上,然后原始的记事电脑可能会被清空。

《泰晤士报》的律师可以与多达五名外部顾问分享他们的笔记,以帮助他们理解代码的作用。如果一名律师想向OpenAI首席执行官展示相关内容,山姆·阿尔特曼一段用于问他有关代码问题的代码片段,使用完毕后该副本将会被销毁。

OpenAI市值为1570亿美元主要是由于ChatGPT的成功。但为了建立聊天机器人,该公司在其没有支付一分钱的海量文本上训练了其模型。

该文本包括来自《纽约时报》的故事、其他出版物的文章以及无数受版权保护的书籍。

对ChatGPT代码的审查,以及对微软使用OpenAI技术构建的人工智能模型的审查至关重要。针对这两家公司的版权侵权诉讼.

出版商和艺术家已经对生成式人工智能公司提起了大约二十多起主要的版权诉讼。他们要求分得一块经济蛋糕,这块蛋糕使OpenAI成为了估值最高的公司之一。主导玩家在业内引发了一系列案件,并将微软的估值推高至超过3万亿美元。审理这些案件的法官可能会划定法律界限,确定如何大型语言模型在美国接受培训。

开发人员应该为他们用来创建和运营产品的有价值的出版商内容付费,」《时代》杂志的一位发言人对BI表示。「这项技术的未来成功不必以新闻机构的利益受损为代价。」

对于这场诉讼,这家拥有173年历史的媒体公司聘请了精英律师事务所Susman Godfrey,该律所最近赢得了一场诉讼道琼斯以7亿8750万美元与福克斯新闻达成和解其他新闻机构,包括《纽约每日新闻》和《母亲琼斯》,也对该案件提起诉讼。

Susman Godfrey还代表包括乔治·R·R·马丁、Jodi Picoult和Ta-Nehisi Coates在内的一群作者,他们早在《时代》杂志之前就提出了版权索赔。如果法官认证他们的集体诉讼地位,最终的和解或判决可能会影响到几乎所有其作品被用于训练AI模型的作者和艺术家。

9月12日,几十名来自科技和新闻公司的律师挤进曼哈顿下城的一间地方法官法庭,讨论如何最好地分配取证过程,包括检查ChatGPT的代码和训练数据。除了作者的律师外,他们仍在决定可以传唤哪些人以及如何安排这些审讯。

“对于从事版权工作的法律教授来说,这已经是相当令人兴奋的事情了,”乔治城大学法学院的知识产权法学教授克里斯特莉亚·加西亚说。

设定规则

带有国会退居二线在人工智能监管方面缺席,业内预计法院将会确定——或者他们希望不会被设置——规则。

许多出版商,包括商业内幕的所有者Axel Springer公司已经与生成式AI公司达成协议,分享其内容用于大型语言模型训练。

《时代》周刊诉讼的范围和资源使其有可能成为具有开创性先例的最高法院案件。律师们还关注作者集体诉讼以及音乐产业针对Anthropic的诉讼,认为这些案件值得关注。

加西亚说:“《纽约时报》是一家新闻界的巨头。”“它规模大,内容丰富。更重要的是,也许它背后有着巨大的市场影响力。”

该诉讼认为OpenAI以两种方式侵犯了其知识产权。

有一个“输入”案例——声称LLM非法收集了超过10万篇《纽约时报》的文章来训练ChatGPT和Microsoft Copilot,而未给予补偿。还有一个“输出”案例——认为当被要求时,ChatGPT可以输出读者本应付费订阅的《纽约时报》文章。

在法庭文件中,律师们多次引用了Napster的例子,该公司非法复制了几百万首歌曲并免费提供。《纽约时报》认为,OpenAI类似地使用了高质量、研究充分、撰写精良和基于事实的《纽约时报》文章来使ChatGPT如此出色。

据代表作者在与《纽约时报》案平行的集体诉讼以及针对Anthropic类似案件中的Susman Godfrey律师事务所律师贾斯汀·nelson说,如果有什么区别的话,OpenAI的情况更糟。

Napster 是一个来自大学生的项目;OpenAI 背后有微软的支持,价值已达数百亿美元。

纳尔森告诉BI:“那不是小孩干的,而是一家成熟的公司。”“而且他们也不是为了自己个人使用,而是为了商业利益。”

代表OpenAI和微软的人员没有回应内幕商务记者的评论请求。在法庭上,他们主张“合理使用”的法律原则保护了他们的模型获取文章的方式。ChatGPT输出的内容与《纽约时报》文章近似复制品的情况是“高度异常”的。不具代表性的结果他们说,这是关于应用程序如何被使用的说明。

Napster 被起诉至破产,但它促使音乐行业采用MP3,并最终采纳了流媒体服务——如今这种服务被用于从视频游戏到电影等各种领域。 Spotify联合创始人Daniel Ek提到Napster给他带来了灵感,和 纳普斯特(Napster)联合创始人塞安·帕克尔赞扬斯波蒂菲为继任者.

版权诉讼可能会由新闻机构发起,从而为所有的AI生成器设定标准,加西亚预测道。他在音乐行业工作了十年。虽然AI在制作电影或进行报道方面并不特别擅长,但它可以相当逼真地模仿 Journalism(这里的journalism应保持不变,因为它是专有名词,特指“新闻业”)。

“新闻业就像是煤矿里的金丝雀,”加西亚说。“就像在Napster时代音乐是那只金丝雀一样,因为人们可以轻松地下载MP3。但在当时,你不能轻易地下载一部电影。”

鉴于涉及的人数众多,作者们的诉讼可能会产生更加戏剧性的影响。和解或判决可能会影响商业模式。

“人们在集体诉讼和解中会发挥创意,”埃默里大学研究版权法和人工智能的法学教授马修·萨格说。“你可以给美国的作者分配一部分股票或其他形式的补偿。”

源代码

生成式人工智能技术本身的性质正是版权争议的核心。

实际上发生了什么当一个大型语言模型“学习”一本书或新闻文章时?当ChatGPT挖掘模型来回答一个问题时呢?这个过程是否在任何有意义的层面上制作了“副本”?还是训练数据只是庞大模型的一部分?一串零和一组成的数据流或糊状物不再有意义地类似于特定作品?

正在审查ChatGPT代码的律师和顾问们正试图回答这些问题。他们还正在检查大型语言模型的训练数据,并计划在宣誓的情况下询问关键的OpenAI高管和程序员,了解这些模型的工作原理。

一旦代码被阅读并且证据收集完毕,各方将处于更有利的位置来讨论“合理使用”,这是一个众所周知的棘手法律原则,它保护从受版权保护材料衍生出来的“转化性”创作的使用。

如果OpenAI确实像Napster那样复制书籍和新闻文章,那么它的训练过程是否具有足够的 transformative 性质,可以被认为是“合理使用”?根据克利夫兰州立大学的知识产权法教授克里斯塔·莱萨的说法,在全国范围内审理合理使用版权案件的法官们意见不一,“判例五花八门”,这使得情况变得复杂且难以预测。

拉斯尔告诉BI:“我认为到最后,这将成为一个重大问题,并且会一直上诉到最高法院。”“关于训练数据的合理使用问题,包括摄取和训练的过程。”

一个关键的“合理使用”问题是ChatGPT的作品是否与原始新闻作品竞争——这对新闻机构来说是一个紧迫的问题。

加西亚说:“新闻出版商是第一个提起这些大规模诉讼的,因为他们有更多的利益在其中。”

要提出版权索赔,原告不能仅仅指出用作灵感来源的作品集。他们需要指明具体的一部被声称被复制的作品。

在诉讼中,《纽约时报》附上了几万页的证据,列出了10,553,897篇文章。它称OpenAI和微软非法侵犯了每一篇文章的版权。

在那些文章中一个2001年的故事在上诉法院裁定奈派斯特败诉不久之后,一位记者询问了用户们接下来会怎么做。他们都认为没有回头路可走了。

“如果Napster真的关闭了,还有其他网站存在,”一名用户告诉 reporters。 “他们可能只能打击几个网站,但无法阻止所有类似网站。”注意:最后一句中的reporters在原文中应该是 reporter,这里保持人称一致做了适当调整。

关于《为什么《纽约时报》的律师在一间秘密房间里检查OpenAI的代码》
暂无评论

摘要

《纽约时报》的律师正在仔细审查ChatGPT的源代码和训练材料。他们表示,包含几乎逐字复制时报文章的ChatGPT输出结果“高度异常”,并不具有代表性。根据克利夫兰州立大学知识产权法教授克里斯塔·莱萨的说法,在全国各地审理合理使用版权案件的法官们在裁决上存在很大分歧,这使得这些案件的结果难以预测且风险很高。“新闻出版商是第一个提起这类大规模诉讼的一方,因为他们有更多利益受到威胁。”加西亚说。