作者:Paul Sawers
简介
发布:
人工智能训练数据有一个很大的价格标签,最适合财力雄厚的科技公司。这就是哈佛大学的原因计划发布该数据集包含约 100 万本公共领域书籍,涵盖不同流派、语言,作者包括狄更斯、但丁和莎士比亚,但由于年代久远,这些书籍不再受版权保护。
新数据集尚不可用,也不清楚何时或如何发布。然而,它包含源自 Google 长期图书扫描项目的图书,谷歌图书,因此 Google 将参与发布“这个宝库”。
哈佛首先调侃机构数据倡议(IDI)回到三月,概述了其创建“人工智能合法数据的可信渠道”的计划。然而,直到它发布之前,人们还没有听到太多消息。今天正式启动,并确认 IDI 包括微软和 OpenAI 的财务支持。
IDI 执行董事格雷格·莱珀特表示该数据集的目的是“公平竞争”,向任何想要训练大型语言模型 (LLM) 的人(从研究实验室到人工智能初创公司)开放如此庞大的数据集。
订阅业界最大的科技新闻