企鹅出版社在其书籍中增加了一项禁止用于AI抓取的内容页面

2024-10-18 16:30:30 英文原文

作者:Todd Feathers

全球最大出版商之一的企鹅兰登书屋针对科技公司未经授权使用其作者作品的行为,将更改所有书籍版权页上的语言,明确禁止将其用于训练人工智能系统。据报道,书商.

这与其它大型出版商,如学术印刷厂有所不同。泰勒弗朗西斯公司, Wiley及牛津大学出版社,这些公司均已同意将其专利组合许可给AI公司。

埃默里大学法学院的AI和版权专家马修·萨格表示,企鹅兰登书屋的新条款似乎是针对欧盟市场,但也可能影响美国AI公司如何使用其材料。根据欧盟法律,版权所有者可以选择不让他们的作品被数据挖掘。虽然这一权利并未在美国法律中明确规定,但最大的AI开发公司通常不会抓取付费墙后的内容或网站排除的内容。robots.txt“你认为他们没有理由不尊重这种退出选项[就像企鹅兰登书屋在其书中包含的那样],只要这是一个他们可以大规模处理的信号,”萨格说。

数十位作者和媒体公司在美國對谷歌、Meta、微軟、OpenAI和其他人工智能開發公司提起訴訟,指控他們在訓練大型語言模型時使用受版權保護的作品侵犯了法律。科技公司辯稱其行為符合相關法律的規定。合理使用原则允许在某些情况下未经许可使用受版权保护的作品例如,如果衍生作品实质上改变了原始内容,或者用于批评、新闻报道或教育目的。

美国法院尚未决定将一本书输入大型语言模型是否构成合理使用。与此同时,社交媒体趋势用户发布消息告诉科技平台不要在其内容上训练AI模型的做法注定是不成功的。

企鹅兰登书屋的声明与那些乐观的复制粘贴内容有所不同。一方面,社交媒体用户必须同意平台的服务条款,这些条款通常允许其内容被用于训练AI。另一方面,企鹅兰登书屋是一家财力雄厚的国际出版商,能够通过法律团队来支持其声明。

《书商》报道,出版社的新版权页部分内容如下:“本书任何部分均不得以任何形式用于训练人工智能技术或系统。根据《数字单一市场指令2019/790》第四条第三款的规定,企鹅兰登书屋明确保留本作品免于文本和数据挖掘例外。”

科技公司乐于从互联网上挖掘语言数据集,特别是像Reddit这样的网站,但这些内容的质量往往较差。—充满糟糕的建议种族主义、性别歧视以及所有其他形式的偏见,导致了最终模型中的偏差和不准确性。AI研究人员已经说过由于写作风格和事实核查的质量,书籍是模型训练数据中最理想的之一。

如果企鹅兰登书屋能够成功地将其受版权保护的内容与大型语言模型隔离开来,这将对生成式人工智能行业产生重大影响,迫使开发者要么开始为高质量内容付费这将是对那些依赖免费使用他人作品的商业模式的一种打击——或者试图向客户推销基于低质量网络内容和过时出版物训练的模型。

“像企鵝隨機屋這樣的公司選擇不參與人工智能訓練的終極目標可能是為了滿足那些反對自己的作品被用作任何原因的訓練數據的作者的利益,但更可能是為了讓出版公司能夠轉而收取許可費以獲取數據訪問權,”萨格说。“如果我們最終進入這樣的世界,人工智能公司仍將繼續在‘開放互聯網’上進行訓練,但任何擁有相當大數量文本資料的人都會希望退出並收費以獲取訪問權。這看起來是一種相當不錯的折衷方案,它允許出版商和網站通過獲取訪問權來盈利,同時又不會為人工智能訓練創造出無法承受的交易成本。”

关于《企鹅出版社在其书籍中增加了一项禁止用于AI抓取的内容页面》
暂无评论

摘要

大型出版公司企鹅兰登书屋针对科技公司未经授权使用其作者作品的行为,将改变所有书籍版权页上的语言,明确禁止将其用于训练人工智能系统。《出版商周刊》的报道指出,埃默里大学法学院的人工智能和版权专家马修·萨格表示,企鹅兰登书屋的新措辞似乎旨在针对欧盟市场,但也可能会影响美国AI公司的材料使用方式。根据《数字单一市场指令2019/790》第4(3)条的规定,“企鹅兰登书屋明确保留此作品不受文本和数据挖掘例外条款的限制。” 科技公司乐于从互联网上(尤其是像Reddit这样的网站)挖掘语言数据集,但这些内容的质量往往较差——充斥着糟糕的建议、种族主义、性别歧视以及其他各种偏见,导致生成的模型存在偏差和不准确的问题。 “企鹅兰登书屋等公司在AI训练中选择退出可能最终是为了满足那些反对自己的作品被用作任何理由的训练数据的作者的利益,但更可能是为了使出版公司能够反过来收取许可费来获取这些训练数据。”萨格说道。