作者:By MATT O’BRIEN
马萨诸塞州剑桥(AP) - 互联网上所说的一切只是教学的开始人工智能关于人类。科技公司现在正在利用较旧的知识存储库:图书馆堆栈。
早在15世纪,近一百万本书出版,有254种语言是哈佛大学收藏的一部分,周四向AI研究人员发布了一部分。即将推出的是波士顿公共图书馆持有的旧报纸和政府文件。
打开对数百年历史的人的保险库可能是与诉讼作斗争的科技公司的数据来自活着的小说家,,,,视觉艺术家和其他的未经他们同意培训AI聊天机器人的创意作品。
Microsoft副律师伯顿·戴维斯(Burton Davis)说,从公共领域数据开始是一个审慎的决定,因为目前的争议比仍然没有版权的内容较少。”
戴维斯说,图书馆还拥有大量有趣的文化,历史和语言数据。评论AI聊天机器人大多数人都从中学到了。恐惧用完数据还导致AI开发人员求助于聊天机器人本身和质量较低的合成数据。
在来自Microsoft和Chatgpt Maker Openai的无限制礼物的支持下,总部位于哈佛大学的机构数据计划正在与世界各地的图书馆和博物馆合作,以如何使他们的历史性藏品AI-Ready以一种也使他们所服务的社区有益。
Aristana Scourtas说,我们试图将某些权力从当前的AI时刻转移到这些机构中,他在哈佛法学院的图书馆创新实验室管理研究。图书馆员一直是数据的管家和信息管家。
哈佛大学新发布的数据集,《机构书1.0》,包含超过3.94亿张纸张的纸张。较早的作品之一是1400年代的韩国画家手写的想法关于耕种花和树木。最大的作品集中在19世纪,涉及文学,哲学,法律和农业等主题,所有这些都是由几代图书馆员精心保存和组织的。
它有望成为AI开发人员试图提高其系统的准确性和可靠性的福音。
数据计划的执行董事格雷格·莱珀特(Greg Leppert)说,在AI培训中使用的许多数据并非来自原始资料,他还是哈佛大学的伯克曼克莱因互联网与社会中心的首席技术专家。他说,这本书的收藏始终回到了实际收集这些物品的机构扫描的物理副本。”
在Chatgpt引发了商业化的AI Frenzy之前,大多数AI研究人员对他们从Wikipedia撤出的文本段落的来源不大,从社交媒体上像Reddit这样的论坛有时是从盗版书籍的深层存储库中。他们只需要很多计算机科学家所说的代币数据,每个数据都可以代表一个单词。
哈佛大学的新AI培训系列估计有2420亿个代币,这对于人类来说很难理解,但这仍然只有一滴水融入了最先进的AI系统。例如,Facebook母公司Meta表示,其AI大型语言模型的最新版本接受了从文本,图像和视频中拉出的300万亿代币的培训。
梅塔还与喜剧演员莎拉·西尔弗曼(Sarah Silverman)和其他出版的作者作斗争,他们指责该公司从盗版作品中窃取他们的书籍。
现在,有了一些预订,真正的图书馆就站起来了。
Openai,也正在与版权诉讼,今年向包括牛津大学400年历史的Bodleian图书馆在内的一组研究机构捐赠了5000万美元,该图书馆正在数字化稀有文本并使用AI来帮助他们转录。
它的数字和在线服务负责人杰西卡·教堂(Jessica Chapel)表示,当公司首次与美国最大的波士顿公共图书馆接触时,图书馆明确指出,其数字化的任何信息都适合所有人。
Openai对大量培训数据具有这种兴趣。我们对大量数字对象有兴趣。教堂说,这只是事物保持一致的一种情况。
数字化很昂贵。例如,波士顿图书馆扫描和策划数十个新英格兰的法语报纸,这是艰苦的工作,这些报纸在19世纪末和20世纪初被魁北克的加拿大移民社区广泛阅读。现在,此类文本已被用作培训数据,它可以帮助图书馆员想要做的资金项目。
从2006年开始,哈佛大学的藏品已经在其有争议的项目中为另一家科技巨头Google开始数字化,以创建一个可搜索的在线图书馆,该图书馆拥有超过2000万本书。
Google花了几年击败法律挑战从作者到其在线书籍库,其中包括许多更新和受版权保护的作品。终于在2016年解决了美国最高法院允许拒绝版权侵权索赔的下级法院裁决。
现在,Google首次与哈佛大学合作,从Google书籍中检索了公共领域量,并为其向AI开发人员释放了道路。美国版权保护通常持续95年和更长的声音录音。
这项新的努力周四受到同一家作者团体的称赞,该团体在其书籍项目中起诉Google,最近将AI公司提出了法庭。
作者协会首席执行官玛丽·拉森伯格(Mary Rasenberger)在周四的声明中说,这些标题中的许多仅存在于主要图书馆的堆栈中,而该数据集的创建和使用将在周四的声明中说,该数据集的创建和使用将提供扩展的对这些卷和内部知识的访问。”重要的是,创建法律,大型培训数据集将民主化创建新的AI模型。”
所有这些对下一代AI工具的有用是多么有用,随着周四在拥抱面平台上共享数据,该数据集托有数据集和开源AI模型,任何人都可以下载。
本书收集在语言上比典型的AI数据源更具多样性。尽管欧洲语言仍然占主导地位,尤其是德语,法语,意大利语,西班牙语和拉丁语,但数量不到一半的英语。
Leppert说,在19世纪,一本沉浸在19世纪的书籍收集对于技术行业为建立可以计划和理性的人类和人类的AI代理而努力而言,这也是至关重要的。
•莱珀特说,在大学里,您有很多教学法。”您有很多有关如何运行流程以及如何运行分析的科学信息。
同时,也有许多过时的数据,从揭穿的科学和医学理论到种族主义和殖民叙事。
``当您处理如此大的数据集时,关于有害内容和语言的问题存在一些棘手的问题。
-
美联社和Openai有许可和技术协议这允许OpenAi访问AP的一部分文本档案。