作者:Kate Knibbs
除了大量书籍之外,机构数据计划还与波士顿公共图书馆合作,扫描目前在公共领域的不同报纸的数百万篇文章,并表示愿意在未来建立类似的合作。图书数据集的确切发布方式尚未确定。机构数据倡议已要求谷歌在公共分发方面进行合作,但细节仍在敲定中。谷歌全球事务总裁肯特·沃克在一份声明中表示,该公司“很自豪能够支持”该项目。
无论 IDI 的数据集如何发布,它将加入许多类似的项目、初创公司和计划,这些项目、初创公司和计划承诺让公司获得大量高质量的人工智能培训材料,而不会遇到版权问题的风险。Calliope Networks 和 ProRata 等公司已经出现颁发许可证和管理补偿计划旨在让创作者和权利持有者因提供人工智能训练数据而获得报酬。
还有其他新的公共领域项目。去年春天,法国人工智能初创公司 Pleias推出据项目协调员 Pierre-Carl Langlais 称,其自己的公共领域数据集 Common Corpus 估计包含 3 至 400 万本书和期刊集。在法国文化部的支持下,仅本月在开源人工智能平台 Hugging Face 上的通用语料库下载量就已超过 6 万次。上周,Pleias 宣布将发布第一组在该数据集上训练的大型语言模型,Langlais 告诉《连线》杂志,这些模型构成了第一批“专门在开放数据上训练并符合[欧盟]人工智能法案”的模型。¤
我们也在努力创建类似的图像数据集。人工智能初创公司的诞生释放今年夏天,它自己推出了名为 Source.Plus 的项目,其中包含来自维基共享资源以及各种博物馆和档案馆的公共领域图像。几个重要的文化机构长期以来,他们都将自己的档案作为独立项目向公众开放,例如纽约大都会艺术博物馆。
Ed Newton-Rex,Stability AI 前高管,现负责运营非营利组织该机构对经过道德培训的人工智能工具进行了认证,该机构表示,这些数据集的兴起表明,无需窃取受版权保护的材料来构建高性能和高质量的人工智能模型。OpenAI 此前曾告诉英国立法者,它将是 –不可能的- 在不使用受版权保护的作品的情况下创建 ChatGPT 等产品。“像这样的大型公共领域数据集进一步摧毁了一些人工智能公司用来证明抓取受版权保护的作品来训练其模型的合理性的‘必要性防御’,”Newton-Rex 说。
但他对于IDI及类似项目是否会真正改变AI训练现状仍持保留态度。– 这些数据集只有在被使用(可能与其他数据许可结合使用)来取代被抄袭的受版权保护的作品时才会产生积极影响。如果它们只是被添加到混合中,成为一个数据集的一部分,其中还包括世界创造者未经许可的毕生作品,它们将极大地使人工智能公司受益,”他说。
美国东部时间 12 月 12 日上午 11:18 更新:此报道已根据 Google 的评论进行了更新。