英语轻松读发新版了,欢迎下载、更新

人工智能数据淘金热中的同意案例

2025-01-16 20:11:02 英文原文

一名 OpenAI 举报人因抗议该公司使用受版权保护的数据而辞职被发现死亡去年年底,不到两个月后,在他的公寓里发表一篇文章列出了他认为该公司违法的技术和法律原因。在公司工作了四年后,苏奇尔·巴拉吉辞职了,因为他非常确定他们所做的事情不仅是非法的,而且对社会、开放网络和人类创造者的危害超过了好处。随后,他成为《纽约时报》针对 OpenAI 和微软提起诉讼的关键证人。

这位致力于 ChatGPT 基础模型研究的年轻研究人员的确定性与美国和英国政府的不确定性形成鲜明对比,后者在人工智能训练的文本和数据挖掘方面继续在如何对待版权问题上犹豫不决。。一个 

上个月,英国推出了新的咨询关于人工智能和版权,如下失败的努力今年早些时候制定了自愿守则。美国众议院发布了一份关于人工智能的两党报告基本上被踢了并提交给法院,这个过程需要数年时间才能解决。 

自 2022 年底 ChatGPT 发布以来,开发更大、更好、能力更强的人工智能模型的军备竞赛不断加速,人工智能公司与出版商、内容创作者和网站所有者之间的紧张关系也随之加剧,他们依赖这些数据来发布信息。赢得比赛。OpenAI 和《纽约时报》在法官面前受审本周早些时候争论是否应根据合理使用原则驳回出版商的版权侵权案件。

尽管同意的概念以及我们如何获得同意的方式在其他领域已经发展,但我们最先进的技术仍停留在过去,在过去,同意是通过不是选择退出,并且仅限于二元选择,几乎没有具体说明或细微差别的空间。例如,长期的行业标准只能指定是否允许机器人,但不能指定允许什么类型的使用或可以抓取多少内容。

在过去的三十年里,一段简单而优雅的代码为爬行网络的机器人提供了基本指令,告诉它们是否被允许。大多数情况下,机器人遵循这些说明。与此同时,网站运营商和发布商允许他们抓取自己的网站,以换取他们提供的服务,例如来自搜索引擎的推荐流量或帮助他们的网站更快加载。

这种由版权支持的价值交换有助于保持互联网的开放性和大多数内容的免费访问。 

直到最近。 

什么是文本和数据挖掘 (TDM)? 

当今收集自然语言训练数据的方法(称为文本和数据挖掘 (TDM))的本质是,如果内容可以在线获取或公开获取,那么它就可以获取免费领取。这包括社交媒体帖子和视频、发布者和用户生成的内容、在线存储库以及可以被机器人抓取、抓取和复制的任何其他内容。当然,这不是版权的运作方式,而且超过两打诉讼人工智能公司因侵犯版权而被提起诉讼辞职人工智能高层管理人员反对以合理使用或其他不负责任的做法为幌子使用受版权保护的数据。

人工智能高管坦率地承认,生成式人工智能的进步将不是 可能的无需在这些数据挖掘机器人的帮助下从互联网上收集大量内容。目前,他们不受限制地抓取互联网,在没有明确征求网站所有者许可的情况下复制大量内容,通常是在公然无视付费专区、版权限制或归属要求等限制。

每个站点上的一些代码,称为机器人.txt,指示来自 Google 或 Bing 等搜索引擎的爬虫、Common Crawl 等档案机器人以及 Amazon 价格追踪器等市场研究机器人是否被允许访问该网站。直到最近,大多数合法机器人都自愿遵守这些指令。反过来,大多数出版商允许机器人访问他们的网站以换取推荐流量,这意味着网络保持开放,信息可以自由流动,人们可以自由访问优质信息。

但这种共生关系已经结束,对开放网络和互联网的未来具有深远的影响。安全性和可行性生成式人工智能系统。

人工智能已经成为利润丰厚对于那些带头冲锋的人来说。它正在破坏多个行业的商业模式和人力,引发了关于如何管理 TDM 以及 robots.txt 标准是否仍然适合目的的激烈辩论。但关于如何监管​​ TDM 的决策从根本上来说与制定自动传达偏好甚至控制的标准交织在一起。网络爬虫。一个 

改进数据收集和发布流程

这场辩论的核心是两个问题:人工智能公司应该如何收集用于训练系统的数据?网站运营商和发布商如何更好地传达他们的偏好并确保限制一种类型的机器人不会干扰其他类型的机器人? 

在线同意的概念以及我们如何获得同意的概念在隐私方面不断发展,例如,欧盟的《通用数据保护条例》(GDPR) 要求用户选择加入到数据收集和共享。尽管用户数据为科技公司带来了福音并推动了创新,但世界许多地区的立法者限制了这些数据的收集和使用方式。同样的逻辑也应该适用于人工智能创新。

例如,大多数网站发布商希望 Google 搜索机器人抓取他们的网站,以便消费者找到它们,因为审判中强调这决定了公司具有非法垄断行为过度搜索。但许多人不希望谷歌用他们来之不易的知识产权和创造力来训练其人工智能系统或为其人工智能聊天机器人提供动力。而他们尤其不希望 OpenAI 抓取他们的网站。

我们知道这一点是因为阻止人工智能爬虫访问其网站的出版商数量已经增加显着上升,特别是构成许多训练数据集最重要部分的最高质量网站之一。随着越来越多的网站拒绝在未经信用、补偿或同意的情况下免费提取其内容,这种情况还在不断增加。

这带来的影响 —数据限制迅速加强— 破坏未来人工智能系统的安全性和可行性并强调这样一个事实,即许多人认为让人工智能爬虫夺走他们的工作和创造力是不公平、合法或可取的。 

– 我们决定阻止人工智能玩家使用我们的内容,除非他们带着许可协议前来谈判。这是为了保护我们新闻业的价值并确保公平的报酬,”一位出版商代表在背景发言中解释道。– 我们采取的第一步是默认阻止所有机器人。我们意识到允许不受限制的访问会损害我们的业务,因此我们实施了封闭方法来保护我们的内容。”

此外,机器人给网站运营商带来了成本约占一半所有网络流量。出版商描述说,他们看到机器人每天抓取数千次日志,这些日志来自各种云托管提供商,试图绕过防火墙,并且经常冒充合法浏览器或人类活动,从而导致永无休止的打地鼠循环。 

英国《金融时报》全球公共政策和平台战略总监马特·罗杰森 (Matt Rogerson) 在接受采访时表示,“即使是非常大的公司,也要能够跟踪事态发展,这也是极其困难的”。“另一个巨大的挑战是内容显然可以匿名抓取。”

例如,Meta 开始偷偷地抓取网络建立自己的网络索引,为其人工智能模型奠定基础。一位媒体高管表示,直到接近完成时,该公司才披露这一过程,只是在记者偶然注意到的一篇博客文章中披露了这一信息。为了畅所欲言,该高管要求不透露姓名。 这

黑暗访客网站列出并提供了数百个已知机器人的分类,描述了它们的目的、谁操作它们、它们是否与人工智能相关,以及阻止它们的网站比例。然而,由于缺乏信息,许多未分类。虽然“黑暗访客”之前提供了免费的自动化服务来让网站随时了解更新,但它现在意识到对这项有价值的服务收费是可以赚钱的,这突显了跟上最新机器人的速度所涉及的成本。

这就是为什么许多出版商表示他们想要基于选择加入协议的标准,并得到立法的支持,要求公司遵守这些协议。 

选择加入协议

通过要求权利人明确选择同意人工智能培训,此类标准将更符合版权的基本原则,并强化内容创作者对其作品的使用方式拥有最终决定权的原则,特别是在人工智能培训和培训的背景下。数据挖掘。这将迫使科技公司开发尊重这些权利的系统,类似于《数字千年版权法》(DMCA)导致创建 YouTube Content ID 等工具来实施版权保护。

但是,尽管人们似乎普遍认为需要对 robots.txt 进行现代化改造(该文件的设计并未考虑到当今人工智能系统所需的规模或细微差别),但对于默认值是否应为选择加入或选择退出。 

一种给权利持有者带来负担的选择退出方法将默认假设转变为允许爬行,除非明确限制,从而彻底改变了版权。 

英国的磋商提出了选择退出默认方法,作为权利持有者和人工智能公司之间的妥协,追随了欧盟 2019 年版权指令,这是在生成式人工智能热潮之前通过的。该指令澄清版权适用于文本和数据挖掘,科学研究的例外,权利持有者以机器可读格式或服务条款保留其权利。选择退出的做法让许多权利持有人担心,这一先例可能会使在其他司法管辖区采取选择加入的做法变得更加困难。此外,欧盟人工智能法案强调需要遵守该指令有关保留权利的规则,如果有保留,则需要获得 TDM 权利持有者的授权。

“欧盟人工智能法案和新兴实践将版权的默认选择加入制度转变为选择退出制度,”观察到的马克·诺丁汉 (Mark Nottingham),互联网工程任务组的长期参与者。– 权利持有者现在如果想保留自己的权利就必须采取积极行动。虽然从表面上看他们仍然拥有相同的能力,但这最终成为权力的重大实际转变。” 

与此同时,互联网工程任务组和万维网联盟 (W3C) 等自愿标准制定机构正在制定他们希望的新标准。这些机构中的一些想看看更具体和更精细的权限类型,包括嵌入许可和来源信息甚至控制和跟踪访问的权限。

– 创作者迫切需要限制对其财产的访问。他们不能受到有关偏好信号的现有思维的限制,”开放网络运动和 51 Degrees 的创始人 James Rosewell 解释道。罗斯韦尔提交了一份提议在关于人工智能和 robots.txt 的研讨会结束后,向 IETF 人工智能控制小组报告,一些人表示,他们认为该研讨会不够开放或包容,几乎没有包括任何内容观点来自全球大多数人、互联网用户或小型出版商。– 出版商没有理由需要接受基于偏好的弱解决方案或等待法律生效。有了正确的愿景,就可以部署单一的去中心化解决方案(例如使这封电子邮件成为可能的技术)来解决多个问题。出版商可以控制它,”他说。

数据是作为必要的将人工智能系统视为开发和驱动这些系统所需的计算、人才、土地和电力。随着主要人工智能公司集体投入超过一万亿美元就未来几年的人工智能发展而言,出版商和其他内容创作者的搭便车行为尤其明显,这应该为政策制定者处理人工智能和版权问题的方式提供参考。人工智能专家 Peter Csathy估计迄今为止,主要 AI 公司仅将其 AI 预期总支出中的约 10 亿美元用于内容许可,仅占其预算的 0.1%。也许避免开发人工智能系统的真正成本是占主导地位的人工智能公司实现万亿美元估值的原因。

布鲁金斯学会致力于质量、独立性和影响力。
我们得到了支持多元化的资助者。符合我们的价值观和政策,每份布鲁金斯出版物均代表其作者的唯一观点。

关于《人工智能数据淘金热中的同意案例》的评论


暂无评论

发表评论

摘要

在文本和数据挖掘(TDM)背景下如何平衡内容创作者(例如出版商)和人工智能公司的利益问题是复杂且多方面的。当前争论的焦点是在确定 TDM 许可时是否采用选择加入或选择退出的方法,这对版权法和数字版权管理具有重大影响。### 要点:1. **版权和默认假设**:- 传统上,版权在默认的“选择加入”基础上运作:内容创建者保留对其作品的完全控制权,除非他们明确允许其他人使用它。- 欧盟版权指令 (2019) 引入了科学研究环境中 TDM 的选择退出方法。这一转变引起了权利持有者的担忧,担心他们执行限制的能力受到削弱。2. **Robots.txt 和现代化**:- Robots.txt 是一个标准,历来允许网站管理员控制机器人(例如爬虫和蜘蛛)对其网站的访问。- 随着人工智能的出现,需要更新此协议以处理更细粒度的 TDM 权限。这包括嵌入许可信息和跟踪使用情况。3. **选择加入与选择退出**:- **选择加入**:在 TDM 中使用内容之前需要获得权利所有者的明确许可。- 符合传统的版权原则,确保创作者保留对其作品的控制权。- 对于人工智能公司来说可能会更加繁重,因为它们可能需要根据每个内容协商权限。- **选择退出**:假设已授予许可,除非权利持有者明确限制。- 人工智能公司更容易大规模实施,但引发了对侵犯创作者权利的担忧。4. **标准化工作**:- 互联网工程任务组 (IETF) 和万维网联盟 (W3C) 等组织正在制定新标准,以促进对 TDM 进行更精细的控制。- 建议包括将许可信息直接嵌入数字文件中,从而允许更细致的权限。5. **经济影响**:- 人工智能公司在模型开发上投入巨资,而没有与内容许可相关的大量成本(估计占人工智能开发总预算的 0.1% 左右)。- 这引发了人们对依赖免费数据源的可持续性和公平性的质疑,特别是当这些公司实现了巨大的估值时。### 建议:- **立法行动**:政策制定者应考虑制定与传统版权原则(默认选择加入)更紧密结合的法律,同时为细化权限提供灵活性。- **技术标准**:鼓励制定支持选择加入机制的技术标准,并促进权利持有者和人工智能公司之间轻松协商许可。- **公众参与**:确保对此问题的讨论具有包容性,涉及不同利益相关者(包括互联网用户和小型出版商)的观点。### 结论:TDM 向选择退出方法的转变可能会破坏版权法的基本原则。虽然它可能会简化人工智能公司的实施,但它给依赖知识产权的内容创作者带来了不成比例的负担。尊重双方权利的平衡方法对于促进创新、同时保护那些推动这些进步的人的利益至关重要。通过将技术标准和法律框架与选择加入的默认设置保持一致,我们可以确保人工智能开发的利益得到更公平的分配,并维护数字版权管理系统的完整性。