英语轻松读发新版了,欢迎下载、更新

哈佛大学正在发布由 OpenAI 和微软资助的海量免费人工智能训练数据集

2024-12-12 14:06:28 英文原文

作者:Kate Knibbs

除了大量书籍之外,机构数据计划还与波士顿公共图书馆合作,扫描目前在公共领域的不同报纸的数百万篇文章,并表示愿意在未来建立类似的合作。图书数据集的确切发布方式尚未确定。机构数据倡议已要求谷歌在公共分发方面进行合作,但细节仍在敲定中。谷歌全球事务总裁肯特·沃克在一份声明中表示,该公司“很自豪能够支持”该项目。

无论 IDI 的数据集如何发布,它将加入许多类似的项目、初创公司和计划,这些项目、初创公司和计划承诺让公司获得大量高质量的人工智能培训材料,而不会遇到版权问题的风险。Calliope Networks 和 ProRata 等公司已经出现颁发许可证和管理补偿计划旨在让创作者和权利持有者因提供人工智能训练数据而获得报酬。

还有其他新的公共领域项目。去年春天,法国人工智能初创公司 Pleias推出据项目协调员 Pierre-Carl Langlais 称,其自己的公共领域数据集 Common Corpus 估计包含 3 至 400 万本书和期刊集。在法国文化部的支持下,仅本月在开源人工智能平台 Hugging Face 上的通用语料库下载量就已超过 6 万次。上周,Pleias 宣布将发布第一组在该数据集上训练的大型语言模型,Langlais 告诉《连线》杂志,这些模型构成了第一批“专门在开放数据上训练并符合[欧盟]人工智能法案”的模型。¤

我们也在努力创建类似的图像数据集。人工智能初创公司的诞生释放今年夏天,它自己推出了名为 Source.Plus 的项目,其中包含来自维基共享资源以及各种博物馆和档案馆的公共领域图像。几个重要的文化机构长期以来,他们都将自己的档案作为独立项目向公众开放,例如纽约大都会艺术博物馆。

Ed Newton-Rex,Stability AI 前高管,现负责运营非营利组织该机构对经过道德培训的人工智能工具进行了认证,该机构表示,这些数据集的兴起表明,无需窃取受版权保护的材料来构建高性能和高质量的人工智能模型。OpenAI 此前曾告诉英国立法者,它将是 –不可能的- 在不使用受版权保护的作品的情况下创建 ChatGPT 等产品。“像这样的大型公共领域数据集进一步摧毁了一些人工智能公司用来证明抓取受版权保护的作品来训练其模型的合理性的‘必要性防御’,”Newton-Rex 说。

但他对于IDI及类似项目是否会真正改变AI训练现状仍持保留态度。– 这些数据集只有在被使用(可能与其他数据许可结合使用)来取代被抄袭的受版权保护的作品时才会产生积极影响。如果它们只是被添加到混合中,成为一个数据集的一部分,其中还包括世界创造者未经许可的毕生作品,它们将极大地使人工智能公司受益,”他说。

美国东部时间 12 月 12 日上午 11:18 更新:此报道已根据 Google 的评论进行了更新。

关于《哈佛大学正在发布由 OpenAI 和微软资助的海量免费人工智能训练数据集》的评论


暂无评论

发表评论

摘要

机构数据计划 (IDI) 正在与波士顿公共图书馆合作,将公共领域报纸上的数百万篇文章数字化,旨在为人工智能训练创建一个没有版权问题的大型数据集。IDI 还在探索与 Google 等科技公司进行分销合作。其他举措,例如 Pleias 的 Common Corpus 和 Spawning 的 Source.Plus 提供了类似的开源数据集,挑战了受版权保护的材料对于开发高质量人工智能模型是必要的这一观念。然而,人们担心这些项目是否会有效地改变行业惯例,不再使用未经授权的数据。