人工智能行业核心的虚伪

编者注：本作品是人工智能看门狗,大西洋报– 对生成型人工智能行业正在进行的调查。

2024 年 4 月，谷歌前首席执行官、现任人工智能布道者埃里克·施密特 (Eric Schmidt) 为斯坦福大学的一群学生做了一场闭门讲座。施密特解释说，如果这些年轻人希望成为硅谷企业家，那么他们就应该准备好打破一些道德界限。

当时，已有 19 起针对生成型人工智能公司侵犯版权的诉讼，指控 Anthropic、OpenAI 和其他公司窃取书籍和其他媒体来训练其生成模型。然而施密特告诉学生们继续下载他们需要的任何东西来构建他们的人工智能产品的准确的“测试”版本。如果产品成功，那么你就会聘请一大群律师来收拾残局，”他说。“如果没有人使用您的产品，那么您窃取所有内容也没关系。”

斯坦福大学于 2024 年 8 月在 YouTube 上发布了该演讲的视频，但一天后就被删除。（斯坦福大学没有回应我关于删除的评论请求。）

当我最近拿到一本时，施密特愿意大声说出安静的部分，这让我感到震惊。他表达了一种在硅谷常见的态度，但通常被表述为法律或哲学论证。当我联系到施密特的一位发言人时，他们为自己的立场辩护，告诉我施密特相信受版权保护的作品的“合理使用”可以推动创新。业内其他人引用了技术自由主义的观点，即“信息希望自由”，这是一个经常出现的观点。被误解将信息描绘成一种自然资源的信条，它应该不受限制地流向任何可以使用它的人。

但这一信条似乎永远不适用于硅谷自己的信息，无论是公司收集的关于我们的大量个人数据还是他们编写的软件。例如，Photoshop 就不想免费。事实上，Photoshop 是数以千计受专利保护的科技行业产品之一。谷歌最初的搜索算法等发明，甚至设计细节，例如– 圆角矩形 – 形状苹果 iPhone 的技术也已获得专利，公司聘请高端律师团队来起诉侵权行为。

该行业长期以来一直是知识产权战区，诉讼中的损失经常超过九位数。例如，2017 年，谷歌旗下自动驾驶汽车公司 Waymo据称一名前雇员窃取了自动驾驶汽车的“机密文件和商业秘密，包括蓝图、设计文件和测试文档”，这些文件最终与 Uber 共享。该案以约 2.45 亿美元和解。2010 年代，苹果起诉三星抄袭 iPhone 元素，并在持续七年的专利侵权诉讼中最初获得超过 10 亿美元的赔偿。苹果和高通在多个司法管辖区就知识产权问题相互起诉，以至于难以追踪。

为了追求生成式人工智能，科技公司最近将其积极的战略转向了准备不足的行业。正如我的报告所示，许多顶级人工智能模型已经在包含大量数据的数据集上进行了训练受版权保护的书籍,视频, 和其他作品。这种大规模盗版行为有多种借口：OpenAI（与大西洋报— 业务团队）声称该公司使用“公开信息”来训练其模型；人择有说它使用了书籍，但没有用于任何商业产品；和元承认它在商业产品中使用了书籍，但这样做是“典型的合理使用”。

尽管人工智能公司声称有权在属于其他人的工作上训练自己的模型，但在涉及自己的产品时，人工智能公司却拒绝了类似的推理。考虑 OpenAI服务条款适用于 ChatGPT，禁止使用机器人的输出来开发与 OpenAI 竞争的模型。人择,谷歌, 和人工智能有类似的条款禁止人们使用聊天机器人生成的材料来训练竞争产品。换句话说：我们可以对您的工作进行培训，但您不能对我们的工作进行培训。

在当前的经济环境下，争夺市场主导地位的公司会按照符合其利润的标准进行运营，这并不奇怪。但令人震惊的是，他们的行为与他们所宣称的价值观严重相悖。Meta 显然不希望在网络上复制其模型，尽管它声称这些模型是“开放的”，这个词表明通常意味着软件是免费且公开的，这意味着创建者具有一定程度的善意或慷慨。它有据报道发出通知，要求从在线平台删除此类副本。（Meta 没有回应置评请求。）

公司也知道培训数据的价值，并且至少有一家公司预见到了获取此类数据可能会产生的强烈抵制。2021 年，即 OpenAI 发布 ChatGPT 的前一年和两年前我的报道首次曝光Anthropic 首席执行官达里奥·阿莫代 (Dario Amodei) 写了一篇关于人工智能训练数据的文章内部备忘录标题为“补偿数据生产者的经济模型”。（该模型最近在针对该公司的版权侵权诉讼中被公开。）在该文件中，阿莫迪承认人工智能可能是“一个日益榨取的财富集中器”，随着这一事实的发展，创造者最终可能会“抱怨”或“生气”显而易见。阿莫代写道，创作者的抵制可能会减缓人工智能的进步，因此，他建议用所产生模型的一小部分利润来补偿他们。阿莫代写道，给予创作者公司股权可能“非常适合”Anthropic 的“公共利益导向”。如今，Anthropic 仍然声称提供公共利益，但它在法庭上辩称，使用受版权保护的书籍是“合理使用”，这意味着从本质上讲，作者没有任何权利。当我联系这篇文章时，Anthropic 拒绝发表评论。

公司认为人工智能培训是合理使用因为他们的人工智能模型产生的原创作品并非来自他们用于训练的资源。这不一定是真的：我的报告有显示聊天机器人和图像生成器可以生成他们所训练的媒体的近乎精确的副本，吐出近乎完整的副本哈利·波特与魔法石例如，或者渲染现有艺术品的模糊副本的图像。但公司试图淡化这一事实，并将版权讨论的重点放在其他地方，甚至援引地缘政治和国际“人工智能竞赛”的想法作为一种王牌。– 如果没有合理使用权限，人工智能的竞赛实际上就结束了。美国输了，——OpenAI写道去年到科技政策办公室。

人工智能行业中的每个人并非都意见一致。Stability AI 前音频副总裁 Ed Newton-Rex 于 2023 年 11 月辞职，写道在X上，无论合理使用如何，“在设计时并没有考虑到生成人工智能”，他不认为当前的人工智能培训实践如何能够在一个已经建立了创意艺术经济学、使得创作者依赖版权的社会中被接受。”Newton-Rex创办了一个名为训练有素，它认证根据正确获取的数据进行训练的人工智能模型。

值得注意的是，硅谷本身也经常成为软件盗版形式的知识产权盗窃的受害者。部分为了解决这个问题，大公司已经改变了软件的分发方式。如今，您不能只购买 Adobe Photoshop：相反，您需要支付租金才能访问该程序，该程序会在您每次使用时验证您的许可证。微软对其Office套件365版也采取了类似的做法，而谷歌的办公软件根本无法下载。这些公司通过开发控制访问的新方法，使他们的知识产权更难被窃取——而他们从中获取材料的艺术家、作者和开源软件开发人员实际上无法获得这种选择。

鉴于双重标准，很难判断硅谷关于合理使用的论点是真实的还是只是法律上的权宜之计。一方面，生成式人工智能是一项新技术，它提出了有关版权作品使用的新问题。另一方面，人工智能行业的激进做法对硅谷来说是一如往常：快速行动、打破常规。并打赌律师们能够“收拾残局”。

OC

人工智能行业核心的虚伪

关于《人工智能行业核心的虚伪》的评论

发表评论

摘要

相关新闻

相关讨论