OpenAI 在人工智能诉讼中赢得了与作者的较量,赢得了关键的发现之战
作者:Winston Cho
这是一项极具争议性的裁决,不仅可能改变本案的进程,而且可能改变其他案件的进程人工智能公司。法院刚刚裁定开放人工智能否认其故意侵犯其非法下载书籍的作者版权的指控,从而放弃了律师与当事人之间的保密特权。这一发现为该公司删除两个巨大的盗版图书数据集背后的内部沟通打开了大门,可能使其遭受巨大损失。其内部法律团队即将被解散。
OpenAI 立即对裁决提出上诉,并请来了最高法院律师界的资深人士丽莎·布拉特 (Lisa Blatt),她的客户包括谷歌、美国银行和星巴克。在她的简报中,她发出了可怕的警告:如果允许该决定成立,将消除任何涉及所谓心态的版权案件中的特权主张,心态是一种用于确定被告是否故意侵权或不知道这样做的分析。
周五,OpenAI 在推翻法院裁决的诉讼中获胜。涉及数十亿美元。这些通信可能有助于证明故意侵权,每件作品造成的损失高达 15 万美元,而此前仅为 200 美元。也许更重要的是,这一决定可能为那些起诉人工智能公司的人提供一条获取通常被认为是特权信息的证据的途径。
这个问题一直是发现的关键战场。它涉及一名 OpenAI 员工在 2018 年下载盗版书籍并使用它们创建两个数据集(称为“书籍 1”和“书籍 2”)来训练两个已停产的 GPT 模型。在最初告诉法庭这些数据集因未使用而于 2022 年被删除后,该公司一直坚称有关删除原因的信息是保密的。代表作者和出版商的律师称这是犯规行为。
11 月,地方法官 Ona Wang 裁定 OpenAI 必须交出证据,证明该公司删除数据集的动机。她得出的结论是,当公司披露“书籍 1”和“书籍 2”因“未使用”而被删除时,公司就打开了获取特权材料的大门,尽管她的订单的另一部分引起了版权律师的注意。王认为,该公司通过否认故意侵权的指控,实际上放弃了律师与客户之间的特权,她说,这使该公司的心态受到了法庭的关注。根据该命令,“OpenAI 否认其故意侵犯集体原告的版权作品,即表明其行为是善意的”。
美国地区法官西德尼·斯坦在周五的命令中对包括莎拉·西尔弗曼在内的作者和出版商作出了裁决,强调否认故意侵权索赔并不等于推进善意辩护。他说,这使得 OpenAI 在 2022 年删除数据集的原因完全不可能被发现。“版权被告仅仅否认故意指控(原告承担举证责任)与版权被告肯定地声称其善意地相信其行为是合法的,这是有区别的,”斯坦写道。
随着逆转,发现之争成为案件的先例绕道。虽然后来被推翻了,但这一论点是由代表作家的律师提出的,由苏斯曼·戈弗雷公司的贾斯汀·尼尔森和克雷格·斯迈瑟领导,该公司曾就 15 亿美元的 Anthropic 和解协议进行了谈判。如果该裁决被允许维持,人工智能公司在否认故意侵犯版权作品的指控时,将承担证明自己无意违反版权法的责任。
逆转中还讨论了 OpenAI 在表示数据集因未使用而被删除时是否泄露了特权信息。在这个问题上,Stein 表示,该主张并不代表法律建议,这意味着它们不能用作发现 OpenAI 放弃特权的依据。
尽管在发现战场上失利,但作者的律师在关于影子图书馆盗版图书行为的争论中正在逐渐取得胜利。这一理论在人工智能诉讼过程中发生了变化。起初,作者的律师将盗版行为直接与 OpenAI 对其模型的训练联系起来。但后来他们分辩说,非法下载作品的明显行为,无论是否使用,均构成著作权侵权。
此举利用了作者在另一起人工智能版权案件中取得的胜利,该案件由 Andrea Bartz 起诉 Anthropic,涉及该公司非法下载数百万本书并将其存储在中央图书馆。该判决严重倾向于 Anthropic,但法院批准了该理论的审判,该理论现已成为 OpenAI 案件的一部分。美国地区法官威廉·阿尔苏普 (William Alsup) 写道:“Anthropic 后来购买了之前从互联网上偷来的一本书,但这并不能免除其盗窃责任。”裁决后,Anthropic 同意支付 15 亿美元来和解诉讼。
当今的人工智能系统是根据什么进行训练的,目前在很大程度上仍不得而知。OpenAI 使用从影子图书馆网站 LibGen 下载的“书 1”和“书 2”来训练旧版本的 GPT,但后来删除了这些数据集。尽管如此,人工智能公司仍筹集了数十亿美元,这主要是因为他们在盗版书籍上训练的模型。