OpenAI 猛烈抨击法院允许《纽约时报》读取 2000 万条完整用户聊天记录的命令

2025-11-12 18:27:27 英文原文

OpenAI:《纽约时报》想要 ChatGPT 用户试图绕过新闻付费墙的证据。

信用:盖蒂图片社|亚历克斯

OpenAI 希望法院推翻一项裁决,该裁决迫使 ChatGPT 制造商向《纽约时报》和其他因涉嫌侵犯版权而起诉 OpenAI 的新闻原告提供 2000 万条用户聊天记录。虽然 OpenAI 之前提供了 2000 万次用户聊天作为对《纽约时报》1.2 亿美元要求的反驳,这家人工智能公司表示,要求提供聊天记录的法院命令过于宽泛。

– 这里有问题的日志是完整的对话:2000 万个样本中的每个日志都代表用户和 ChatGPT 之间多个提示输出对的完整交换。”OpenAI 今天在一份报告中表示归档美国纽约南区地方法院。“因此,披露这些日志更有可能暴露私人信息(比单独的提示输出对),就像窃听整个对话比窃听 5 秒对话片段会暴露更多的私人信息一样。”

OpenAI 的文件称,“超过 99.99%”的聊天内容都包含无事可做在此案中,它要求地方法院“撤销该命令,并命令新闻原告对 OpenAI 识别相关日志的提议做出回应。”OpenAI 还可以寻求联邦上诉法院的审查。

OpenAI 发布了留言今天在其网站上向用户表示,“《纽约时报》要求我们交出您的 2000 万条私人 ChatGPT 对话”,以便“找到您使用 ChatGPT 试图绕过他们的付费墙的例子。”

关心隐私的 ChatGPT 用户比《纽约时报》案件更值得担心。例如,ChatGPT 对话已在 Google 搜索结果中找到谷歌搜索控制台工具开发人员可以使用它来监控搜索流量。OpenAI 今天表示,它计划开发先进的安全功能,旨在保护您的数据隐私,包括使用 ChatGPT 对您的消息进行客户端加密。Ø

OpenAI:人工智能聊天应像私人电子邮件一样对待

OpenAI 的法庭文件认为,应根据聊天与案件的相关性来缩小聊天日志的生成范围。

文件称,“OpenAI 不知道有任何法院下令大规模生​​产个人信息。”——这开创了一个危险的先例:它表明,任何对人工智能公司提起诉讼的人都可以要求生成数千万个对话,而无需首先缩小相关性。这并不是其他案件中发现机制的运作方式:法院不允许起诉谷歌的原告挖掘数千万 Gmail 用户的私人电子邮件,无论其相关性如何。这也不是生成式人工智能工具的发现方式。”

11月7日订单美国治安法官 Ona Wang 站在《纽约时报》一边,表示 OpenAI 必须“在 2025 年 11 月 14 日之前,或在完成去识别化过程后 7 天内,向新闻原告制作 2000 万条去识别化的消费者 ChatGPT 日志。”Wang 裁定,即使双方未就是否必须完整生成日志达成一致,生产也必须继续进行:

双方是否已达成协议生产 2000 万条消费者 ChatGPT 日志整体而言——各方对此存在激烈争议——这样的制作在这里是合适的。OpenAI 未能解释其消费者的隐私权为何没有受到以下方面的充分保护:(1) 本次跨地区诉讼中的现有保护令或 (2) OpenAI 对所有 2000 万条消费者 ChatGPT 日志进行彻底的去识别化处理。

OpenAI 今天提交的文件称,法院命令“并未承认 OpenAI 的宣誓证人声明,该声明解释了去识别化过程并非旨在删除非识别性但可能属于隐私的信息,例如《华盛顿邮报》记者假设使用 ChatGPT 来协助准备新闻文章。”

《纽约时报》今天在与 Ars 联系后发表了一份声明。“《纽约时报》针对 OpenAI 和微软的案件是为了让这些公司承担窃取数百万版权作品以创造与《纽约时报》直接竞争的产品的责任,”该公司表示。– OpenAI 的博客文章又试图掩盖其非法行为,故意误导用户并忽略事实。ChatGPT 用户的隐私不会受到威胁。根据法律保护令,法院命令 OpenAI 提供由 OpenAI 本身匿名的聊天样本。鉴于 OpenAI 自己的服务条款允许该公司根据用户的聊天来训练其模型,并将聊天内容移交给诉讼,这种散布恐惧的行为就更加不诚实了。

合法保留的聊天记录

OpenAI 在其网站的消息中表示,这 2000 万条聊天记录由 2022 年 12 月至 2024 年 11 月期间 ChatGPT 对话的随机样本组成,不包括商业客户的聊天记录。

– 我们向《纽约时报》提出了几种隐私保护选项,包括对样本进行有针对性的搜索(例如,搜索可能包含《纽约时报》文章文本的聊天,以便他们只收到与他们的主张相关的对话),以及对示例中如何使用 ChatGPT 进行分类的高级数据。这些都被《泰晤士报》拒绝了,”OpenAI 表示。

OpenAI 表示,这些聊天记录存储在一个安全系统中,该系统“受到法律保留的保护,这意味着除了履行法律义务之外,不能出于其他目的对其进行访问或使用”。《纽约时报》“目前有法律义务不得在法庭程序之外公开任何数据”,OpenAI 表示将抵制任何公开用户对话的企图。

纽约时报归档10 月 30 日,指控 OpenAI 违反了先前的协议——在本案中,其行为引发了争议,拒绝提供数十亿模型输出中的一小部分样本。该文件继续写道:

立即生成输出日志样本对于在 2026 年 2 月 26 日发现截止日期之前保持正常运行至关重要。OpenAI 代表原告对其模型输出的这一小子集进行搜索的提议效率低下,因为它不足以让原告公平地分析“现实世界”用户如何与本次诉讼的核心核心产品进行交互。原告无法对 OpenAI 的模型如何在其面向消费者的核心产品中发挥作用、检索增强生成 (RAG) 如何发挥新闻内容的功能、消费者如何与该产品互动以及在无法访问模型输出本身的情况下产生幻觉的频率进行合理的专家分析。

OpenAI 表示,《纽约时报》的发现请求最初仅限于“与《纽约时报》内容相关”的日志,并且它一直在努力通过对对话日志进行采样来满足这些请求。在该过程即将结束时,新闻原告提出了一项动议,提出了新的要求:OpenAI 不应查找和生成“与《纽约时报》内容相关”的日志,而应通过硬盘移交全部 2000 万个日志样本。”

OpenAI 对法官的推理提出异议

11 月 7 日的命令引用了加州的一个案例,Concord Music Group, Inc. 诉 Anthropic PBC,其中美国地方法官 Susan van Keulen 下令制作 500 万张唱片。OpenAI 始终依赖 van Keulen 使用样本量公式,以支持其之前提出的对话数据采样方法,但未能解释为什么法官 [van] Keulen 在该案中指示原告生产全部 500 万条记录样本的命令在这里没有类似的指导意义,”Wang 写道。

OpenAI 今天提交的文件称,该公司从未有机会解释原因康科德不应适用于本案,因为新闻原告没有在动议中提及这一点。

– 引用的康科德订单并不是关于样品的批发生产是否合适;这是关于人择将实现的机制已经商定的生产,”OpenAI 写道。“如果 Anthropic 提出了 OpenAI 在本案中提出的隐私问题,那么该命令中没有任何内容表明范科伦法官会下令批发生产。”

康科德日志只是提示输出对, –,单个用户提示,然后是单个模型输出,”OpenAI 写道。– 这里有问题的日志是完整的对话:2000 万个样本中的每个日志都代表用户和 ChatGPT 之间多个提示输出对的完整交换。这可能会导致“多达 8000 万个提示输出对”OpenAI 表示。

Photo of Jon Brodkin

Jon 是 Ars Technica 的高级 IT 记者。他负责电信行业、联邦通信委员会规则制定、宽带消费者事务、法院案件以及政府对科技行业的监管。

关于《OpenAI 猛烈抨击法院允许《纽约时报》读取 2000 万条完整用户聊天记录的命令》的评论


暂无评论

发表评论

摘要

OpenAI 已向美国地方法院提交动议,寻求推翻一项命令,该命令要求该公司将 2000 万条用户聊天记录移交给《纽约时报》和其他涉及 OpenAI 版权侵权诉讼的原告。OpenAI 认为,披露完整的聊天日志会带来重大的隐私风险,并请求法院撤销该命令,要求新闻原告对其识别相关日志的提议做出回应。与此同时,《纽约时报》声称,此案涉及要求公司对未经许可使用受版权保护的作品负责,并否认对用户隐私造成任何威胁,并表示聊天是根据法律保护令匿名的。