英语轻松读发新版了,欢迎下载、更新

大多数所谓的“开放”人工智能系统实际上是封闭的——这是一个问题

2024-11-30 15:00:17 英文原文

作者:Shelly Fan

– 开放 – 人工智能模型可以提供很多帮助。与公众共享源代码的做法刺激了创新并使人工智能作为一种工具民主化。

故事大概就是这样。新的分析自然扭曲的叙述:大多数所谓的“开放”人工智能模型,例如 Meta 的 Llama 3,实际上并非如此。

康奈尔大学的戴维·威德 (David Widder) 和大型科技公司的梅雷迪思·惠特克 (Meredith Whittaker) 写道,开放的言辞非但没有鼓励或惠及小型初创企业,反而经常以“加剧权力集中”的方式运用在大型科技公司中。信号基金会和莎拉·韦斯特人工智能现在研究所

为什么要关心?关于人工智能开放性的争论似乎纯粹是学术性的。但随着 ChatGPT 和其他大型语言模型的使用越来越多,政策制定者正在努力迎头赶上。学校或公司可以允许模特吗?应采取哪些指导措施来防止误用?

也许最重要的是,大多数人工智能模型都由谷歌、Meta 和其他科技巨头控制,这些巨头拥有开发或许可技术的基础设施和财务手段,进而引导人工智能的发展以满足他们的财务激励。

全球立法者已经注意到这一点。今年,欧盟通过了人工智能法,世界上第一个全面的立法,以确保使用的人工智能系统– 安全、透明、非歧视且环保。 – 截至 9 月份,超过120个AI账单在国会,保护隐私、问责制和透明度。

理论上,开放人工智能模型可以满足这些需求。但是,“在制定政策时,定义很重要”,该团队写道。

在新的分析中,他们在整个开发周期中打破了人工智能模型中“开放性”的概念,并指出了该术语如何被滥用。

到底什么是“开放性”?

“开源”一词几乎与软件本身一样古老。

在世纪之交,一小群计算叛逆者发布了自由软件代码,任何人都可以下载和使用,不受公司控制。他们有一个愿景:开源软件,例如类似于微软的免费文字处理器,可以为小公司提供公平的竞争环境,并允许那些买不起该技术的人使用。代码也成为了一个游乐场,热心的软件工程师在这里摆弄代码,以发现需要修复的缺陷,从而产生更可用和更安全的软件。

有了人工智能,情况就不同了。大型语言模型是由多层互连的人工“神经元”构建的。与生物神经元类似,这些连接的结构会严重影响模型在特定任务中的表现。

通过在互联网上抓取文本、图像以及越来越多的视频来训练模型。当训练数据流经神经网络时,他们会调整人工神经元连接的强度(称为“权重”),以便生成所需的输出。然后,人们会对大多数系统进行评估,以判断结果的准确性和质量。

问题?了解这些系统的内部流程并不简单。与传统软件不同,仅共享人工智能模型的权重和代码,而不共享底层训练数据,使得其他人很难检测到潜在的错误或安全威胁。

该团队写道,这意味着开源软件之前的概念正在以“不适合人工智能系统的方式”应用,从而导致对该术语的混淆。

开放式洗涤

当前的“开放”人工智能模型涵盖了一系列开放性,但总体而言,它们具有三个主要特征。

一是透明度,或者说其创建者发布了多少有关人工智能模型设置的细节。埃鲁瑟人工智能™例如,Pythia 系列允许任何人下载源代码、底层训练数据和完整文档。他们还授权人工智能模型进行广泛重用,满足“开源”的定义开源倡议是一个非营利组织,它定义了该术语近三十年来的演变。相比之下,Meta 的 Llama 3 虽然被描述为开放的,但只允许人们通过 API(一种允许不同软件进行通信的接口,而不共享底层代码或仅下载模型)来构建人工智能。的权重可以修改,但其使用受到限制。

– 这是 –开放式洗涤“更好地理解为封闭的系统,”作者写道。

第二个特征是可重用性,因为公开许可的数据和人工智能模型的细节可以被其他人使用(尽管通常只能通过云服务——稍后会详细介绍)。第三个特征是可扩展性,让人们可以进行微调满足其特定需求的现有模型。

“[这]是一项关键功能,尤其受到投资开放人工智能的企业参与者的支持,”该团队写道。原因是:训练人工智能模型需要大量的计算能力和资源,而这些通常只有大型科技公司才能获得。例如,Llama 3 接受过训练15万亿代币– 处理数据的单位,例如单词或字符。这些瓶颈使得初创公司很难从头开始构建人工智能系统。相反,他们经常重新训练“开放”系统,使其适应新任务或更有效地运行。斯坦福大学的人工智能羊驼模型例如,基于 Llama 的 ,因其可以在笔记本电脑上运行而引起了人们的兴趣。

毫无疑问,许多人和公司都从中受益开放人工智能模型。但对作者来说,它们也可能成为人工智能民主化的障碍。

黑暗面

作者指出,当今许多大型开放人工智能系统都是在云服务器上进行训练的。阿联酋技术创新研究所开发猎鹰40B并在亚马逊的 AWS 服务器上对其进行训练。MosaicML 的 AI是 – 绑定到微软的 Azure. – 甚至 OpenAI 也与微软合作,以一定的价格提供其新的人工智能模型。

虽然云计算非常有用,但它限制了谁可以在少数大公司及其服务器上实际运行人工智能模型。斯坦福大学羊驼分校最终关闭,部分原因是缺乏财政资源。

训练数据的保​​密是另一个问题。“许多大型人工智能模型被描述为公开忽视提供用于训练系统的基础数据的基本信息,”作者写道。

大型语言模型处理从互联网上抓取的大量数据,其中一些数据受版权保护,导致许多持续的问题诉讼。当数据集不容易获得,或者数据集非常大时,就很难对模型报告的性能进行事实核查,或者如果数据集“洗白了他人的知识产权”,— 根据作者的说法。

当构建通常由大型科技公司开发的框架以最大限度地减少时间时,问题会变得更严重——[重新发明]轮子。”这些预先编写的代码、工作流程和评估工具可帮助开发人员快速构建人工智能系统。然而,大多数调整不会改变模型本身。换句话说,模型内部存在的任何潜在问题或偏差也可能传播到下游应用程序。

人工智能生态系统

对于作者来说,开发更加开放的人工智能并不是一次评估一个模型。相反,它需要考虑整个生态系统。

大多数关于人工智能开放性的争论都忽视了大局。该团队写道,随着人工智能的进步,“仅仅追求开放性不太可能带来太多好处”。相反,在制定开放人工智能政策时,必须考虑人工智能开发的整个周期——从建立、培训和运行人工智能系统到其实际用途和财务激励。

“将我们的希望寄托在孤立的‘开放’人工智能上不会引导我们进入那个世界,”该团队写道。

图片来源:x / x

Shelly Fan

范雪莉https://neurofantastic.com/

范学来是一位由神经科学家转型为科普作家的人。她在不列颠哥伦比亚大学完成了神经科学博士学位,在那里她开发了神经退行性疾病的新疗法。在研究生物大脑时,她对人工智能和所有生物技术着迷。毕业后,她转到加州大学旧金山分校,研究使老化大脑恢复活力的血液因素。她是 Vantastic Media 的联合创始人,这是一家通过文本和视频探索科学故事的媒体企业,并运营着屡获殊荣的博客 NeuroFantastic.com。她的第一本书《人工智能会取代我们吗?》(泰晤士与哈德逊)于 2019 年出版。

关于《大多数所谓的“开放”人工智能系统实际上是封闭的——这是一个问题》的评论


暂无评论

发表评论

摘要

“开放”人工智能模型的概念受到研究人员的质疑,他们认为许多此类模型并不是真正开放的,而是为了巩固大型科技公司内部的权力。虽然开放的理念旨在使人工智能民主化并刺激创新,但“开放清洗”和通过云服务访问受限等做法限制了真正的开放。这种对该术语的误用可能会掩盖有关人工智能的透明度、问责制和道德使用的重要政策讨论,特别是在世界各国政府寻求监管人工智能技术的情况下。作者主张采用更全面的开放人工智能方法,考虑从训练数据到实际应用的整个开发周期,而不是仅仅关注单个模型。