英语轻松读发新版了,欢迎下载、更新

哈佛大学和谷歌将发布 100 万本公共领域书籍作为 AI 训练数据集 |TechCrunch

2024-12-12 13:04:06 英文原文

作者:Paul Sawers

简介

发布:

Library with books
图片来源:纳德日达·德内卡/盖蒂图片社

人工智能训练数据有一个很大的价格标签,最适合财力雄厚的科技公司。这就是哈佛大学的原因计划发布该数据集包含约 100 万本公共领域书籍,涵盖不同流派、语言,作者包括狄更斯、但丁和莎士比亚,但由于年代久远,这些书籍不再受版权保护。

新数据集尚不可用,也不清楚何时或如何发布。然而,它包含源自 Google 长期图书扫描项目的图书,谷歌图书,因此 Google 将参与发布“这个宝库”。

哈佛首先调侃机构数据倡议(IDI)回到三月,概述了其创建“人工智能合法数据的可信渠道”的计划。然而,直到它发布之前,人们还没有听到太多消息。今天正式启动,并确认 IDI 包括微软和 OpenAI 的财务支持。

IDI 执行董事格雷格·莱珀特表示该数据集的目的是“公平竞争”,向任何想要训练大型语言模型 (LLM) 的人(从研究实验室到人工智能初创公司)开放如此庞大的数据集。

订阅业界最大的科技新闻

有关的

关于《哈佛大学和谷歌将发布 100 万本公共领域书籍作为 AI 训练数据集 |TechCrunch》的评论


暂无评论

发表评论