苹果和 Anthropic 等公司已使用这些电影和电视节目中的对话来训练人工智能系统。
编者注:此分析是大西洋号对 OpenSubtitles 数据集的调查。您可以直接访问搜索工具这里。寻找大西洋报用于训练人工智能的书籍搜索工具这里。
自从生成型人工智能聊天机器人出现在互联网上以来,好莱坞作家就一直想知道他们的作品是否被用来训练它们。聊天机器人对电影参考非常流利,公司似乎正在对所有可用资源进行培训。一位编剧最近告诉我,他看到生成式人工智能复制了教父和 20 世纪 80 年代的电视节目阿尔夫,但他无法证明程序已经接受过此类材料的训练。
我现在可以绝对有信心地说,许多人工智能系统已经接受过电视和电影编剧工作的培训。不只是在教父和阿尔夫,但在超过 53,000 部其他电影和 85,000 部其他电视剧中:所有对话都包含在 AI 训练数据集中,该数据集已被 Apple、Anthropic、Meta、Nvidia、Salesforce、Bloomberg 和其他公司使用。我最近下载了这个数据集,我在有关各种大型语言模型(或 LLM)开发的论文中看到了引用。它包括从 1950 年到 2016 年每部获得最佳影片提名的电影的写作,至少 616 集辛普森一家, 170集宋飞传, 45集双峰,以及每一集电线,黑道家族, 和绝命毒师。它甚至包括金球奖和奥斯卡金像奖广播中预先写好的“现场”对话。如果聊天机器人可以模仿犯罪节目中的黑帮或情景喜剧外星人,或者更紧迫的是,如果它可以将可能需要一屋子编剧的整个节目拼凑起来,这样的数据就是原因之一。
阅读:这 183,000 本书正在加剧出版和科技领域最大的斗争
确切地说,该数据集中的文件不是脚本。相反,它们是取自 OpenSubtitles.org 网站的字幕。该网站的用户通常使用光学字符识别 (OCR) 软件从 DVD、蓝光光盘和互联网流中提取字幕。然后他们将结果上传到 OpenSubtitles.org,该网站目前托管着 100 多种语言和方言的超过 900 万个字幕文件。尽管这对于人工智能训练数据来说似乎是一个奇怪的来源,但字幕很有价值,因为它们是书面对话的原始形式。它们包含口语对话的节奏和风格,使科技公司能够将生成式人工智能的功能扩展到学术文本、新闻和小说之外,所有这些也被用来训练这些程序。写得好的语音在人工智能训练数据领域是一种稀有商品,对于训练聊天机器人自然地“说话”可能特别有价值。
根据研究论文,Anthropic 使用这些字幕来训练其 ChatGPT 竞争对手 Claude;由 Meta 培训一系列名为“法学硕士”的法学硕士开放预训练 Transformer (OPT);通过Apple来训练法学硕士家庭可以在 iPhone 上运行;并由 Nvidia 训练一个家庭尼莫威震天法学硕士。它还被 Salesforce、Bloomberg、EleutherAI、Databricks 使用,大脑,和其他各种人工智能开发人员共同构建至少 140 个开源模型分布在人工智能开发中心 Hugging Face 上。其中许多模型都有可能被用来与人类作家竞争,而且它们是在未经这些作家许可的情况下构建的。当我联系 Anthropic 获取这篇文章时,该公司没有提供任何评论。
当我已经以前说过的关于 Anthropic 对该数据集的使用,一位发言人告诉我,该公司已经“在公共数据集 The Pile 上训练了我们的生成人工智能助理 Claude”,OpenSubtitles 是其中的一部分,并且“它是Salesforce 的一位发言人告诉我,尽管该公司在生成式 AI 开发中使用了 OpenSubtitles,但该数据集“从未用于通知或增强 Salesforce 的任何产品。”苹果公司同样告诉我,它的小型法学硕士课程仅用于研究。然而,与其他人工智能开发人员一样,Salesforce 和苹果都已将他们的模型提供给开发人员在许多不同的环境中使用。本文中提到的所有其他公司——Nvidia、Bloomberg、EleutherAI、Databricks 和 Cerebras——要么拒绝置评,要么没有回应置评请求。
您可以使用下面的工具搜索数据集。
ChatGPT 发布两年后,未经许可使用创意作品来驱动人工智能产品可能并不奇怪。然而,这个想法仍然令许多艺术家和专业人士感到不安,他们认为自己的手艺和生计受到了项目的威胁。透明度普遍较低:科技公司往往不会宣传他们使用谁的工作来训练他们的产品。版权作品培训的合法性也仍然是一个悬而未决的问题。作家、演员、艺术家和出版商对科技公司提起了大量诉讼,指控他们的版权在人工智能训练过程中受到侵犯:绝命毒师的创作者文斯·吉利根 (Vince Gilligan)写了去年,美国版权局表示,生成式人工智能相当于“一种极其复杂且耗能的抄袭形式”。科技公司认为,针对受版权保护的作品训练人工智能系统是“一种极其复杂且耗能的抄袭形式”。合理使用,但法院尚未就这一主张作出裁决。用版权法的语言来说,字幕很可能被视为衍生作品,法院会一般来说认为它们受到与它们的电影相同的禁止复制和分发规则的保护。OpenSubtitles 数据集自 2020 年以来一直在 AI 开发者之间流传。它是 Pile 的一部分,Pile 是用于训练生成式 AI 的数据集集合。该桩还包括来自图书、专利申请、在线讨论、哲学论文、YouTube-视频字幕,等等。对于公司来说,这是一种开始构建人工智能系统的简单方法,而无需查找和下载法学硕士所需的许多 GB 的高质量文本。
任何知道在哪里查看的人都可以下载 OpenSubtitles,但与大多数人工智能训练数据集一样,了解其中的内容并不容易。这是一个 14 GB 的文本文件,其中包含一些未注明来源的短行对话,这意味着说话者的身份无法识别。没有办法知道一部电影在哪里结束、下一部电影从哪里开始,更不用说电影是什么了。我下载了该数据集的“原始”版本,其中电影和剧集被分成 446,612 个文件,并存储在名称与 IMDb.com 上列出的电影和剧集的 ID 号相对应的文件夹中。大多数文件夹包含同一部电影或电视节目的多个字幕版本(不同版本可能会以各种方式进行调整),但我能够识别至少 139,000 个独特的电影和剧集。我从 OpenSubtitles.org 网站下载了与每个标题相关的元数据(例如,允许我将演员和导演映射到每个标题),并使用它来构建上面的工具。
OpenSubtitles 数据集为围绕人工智能的复杂叙述增添了另一个难题,其中艺术家的同意甚至技术的基本前提都是争论的焦点。直到最近,没有哪个作家用笔写下剧本,会想到他们的创造性工作可能会被用来训练可以取代他们的程序。而且字幕本身最初也不是为了这个目的。多语言 OpenSubtitles 数据集包含 62 种不同语言的字幕和 1,782 种语言对组合:它旨在训练 Google Translate 和 DeepL 等应用程序背后的模型,这些应用程序可用于翻译网站、外国的街道标志,或整部小说。该数据集的创建者之一 Jörg Tiedemann 在一封电子邮件中写道,他很高兴看到 OpenSubtitles 也被用于 LLM 开发,尽管这不是他的初衷。
无论如何,他都无力阻止。字幕位于互联网上,无法得知有多少独立的生成人工智能程序使用了它们,或者这些程序产生了多少合成写作。但现在,至少我们对谁被困在机器里有了更多的了解。世界将决定他们欠什么?
关于作者
亚历克斯·赖斯纳是一名自由作家、程序员和技术顾问。