哈佛大学和谷歌将发布 100 万本公共领域书籍作为 AI 训练数据集 |TechCrunch

作者：Paul Sawers

简介

发布：

太平洋标准时间 2024 年 12 月 12 日凌晨 5:04

人工智能训练数据有一个很大的价格标签，最适合财力雄厚的科技公司。这就是哈佛大学的原因计划发布该数据集包含约 100 万本公共领域书籍，涵盖不同流派、语言，作者包括狄更斯、但丁和莎士比亚，但由于年代久远，这些书籍不再受版权保护。

新数据集尚不可用，也不清楚何时或如何发布。然而，它包含源自 Google 长期图书扫描项目的图书，谷歌图书，因此 Google 将参与发布“这个宝库”。

哈佛首先调侃机构数据倡议（IDI）回到三月，概述了其创建“人工智能合法数据的可信渠道”的计划。然而，直到它发布之前，人们还没有听到太多消息。今天正式启动，并确认 IDI 包括微软和 OpenAI 的财务支持。

IDI 执行董事格雷格·莱珀特表示该数据集的目的是“公平竞争”，向任何想要训练大型语言模型 (LLM) 的人（从研究实验室到人工智能初创公司）开放如此庞大的数据集。

订阅业界最大的科技新闻

OC