作者:By Melissa Heikkiläarchive pageStephanie Arnettarchive page
人工智能就是数据。需要大量数据来训练算法来完成我们想要的事情,而人工智能模型中的内容决定了结果。但问题是:人工智能开发人员和研究人员并不真正了解他们所使用的数据的来源。与人工智能模型开发的复杂性相比,人工智能的数据收集实践还不成熟。海量数据集通常缺乏关于其中内容及其来源的明确信息。
由来自学术界和工业界的 50 多名研究人员组成的数据来源计划 (Data Provenance Initiative) 想要解决这个问题。他们想知道的很简单:构建人工智能的数据从哪里来?他们审核了近 4,000 个公共数据集,涵盖 600 多种语言、67 个国家和三十年。这些数据来自 800 个独特来源和近 700 个组织。
他们的发现,独家共享于麻省理工科技评论,显示出一个令人担忧的趋势:人工智能的数据实践有可能将权力绝大多数集中在少数占主导地位的科技公司手中。
参与该项目的麻省理工学院研究员 Shayne Longpre 表示,2010 年代初,数据集来自多种来源。
它不仅来自百科全书和网络,还来自议会记录、财报电话和天气预报等来源。隆普雷说,当时,人工智能数据集是专门从不同来源收集和整理的,以适应个别任务。
然后,支撑语言模型的架构 Transformer 在 2017 年被发明,人工智能领域开始看到模型和数据集越大,性能越好。如今,大多数人工智能数据集都是通过不加区别地从互联网上获取材料来构建的。自 2018 年以来,网络一直是所有媒体(例如音频、图像和视频)中使用的数据集的主要来源,抓取的数据和更精心策划的数据集之间的差距已经出现并扩大。
在基础模型开发中,对于功能来说,没有什么比数据和网络的规模和异构性更重要了。朗普雷说。对规模的需求也大量促进了合成数据的使用。
过去几年还见证了多模态生成人工智能模型的兴起,它可以生成视频和图像。与大型语言模型一样,它们需要尽可能多的数据,而 YouTube 就是最佳来源。
对于视频模型,正如您在此图表中所看到的,语音和图像数据集超过 70% 的数据来自同一个来源。
这对于拥有 YouTube 的谷歌母公司 Alphabet 来说可能是一个福音。文本分布在整个网络上并由许多不同的网站和平台控制,而视频数据则极其集中在一个平台上。
“它让一家公司对网络上许多最重要的数据拥有高度集中的权力,”朗普雷说。
AI Now Institute 联合执行主任萨拉·迈尔斯·韦斯特 (Sarah Myers West) 表示,由于谷歌也在开发自己的人工智能模型,其巨大的优势也引发了人们的疑问:该公司将如何向竞争对手提供这些数据。
“重要的是,不要将数据视为自然发生的资源,而应将其视为通过特定过程创建的东西,”迈尔斯·韦斯特 (Myers West) 说道。
– 如果我们所交互的大多数人工智能的数据集反映了大型、以利润为导向的公司的意图和设计 – 那么就会以反映未来的方式重塑我们世界的基础设施这些大公司的利益,”她说。
科技公司 Cohere 的研究副总裁萨拉·胡克 (Sara Hooker) 表示,这种单一文化还引发了人们对数据集中描述人类体验的准确程度以及我们正在构建何种模型的疑问,她也是数据起源计划的成员。。
人们将视频上传到 YouTube 时会考虑到特定的受众群体,而人们在这些视频中的行为方式通常是为了达到非常特定的效果。“[数据]是否捕捉到了人性的所有细微差别以及我们存在的所有方式?”胡克说。
人工智能公司通常不会分享他们用来训练模型的数据。原因之一是他们想保护自己的竞争优势。另一个原因是,由于数据集的捆绑、打包和分发方式复杂且不透明,他们甚至可能不知道所有数据来自哪里。
他们也可能没有关于如何使用或共享数据的任何限制的完整信息。数据来源倡议的研究人员发现,数据集通常附加有限制性许可或条款,这应限制其用于商业目的等。
“整个数据沿袭缺乏一致性,使得开发人员很难就使用哪些数据做出正确的选择,”Hooker 说。
Longpre 补充道,这也使得几乎不可能完全确定您没有使用受版权保护的数据训练您的模型。
最近,OpenAI 和 Google 等公司与出版商、Reddit 等主要论坛以及网络社交媒体平台达成了独家数据共享协议。但这却成了他们集中权力的另一种方式。
“这些排他性合同可以将互联网划分为不同的区域,谁可以访问,谁不能访问,”Longpre 说。
这一趋势有利于最大的人工智能参与者,他们有能力承担此类交易,但牺牲了研究人员、非营利组织和小公司的利益,而这些公司将很难获得机会。最大的公司也拥有用于爬取数据集的最佳资源。
“这是一波新的不对称访问浪潮,我们在开放网络上从未见过这种程度的”,Longpre 说。
用于训练人工智能模型的数据也严重偏向西方世界。研究人员分析的数据集超过 90% 来自欧洲和北美,不到 4% 来自非洲。
“这些数据集反映了我们世界和文化的一部分,但完全忽略了其他部分,”胡克说。
英语在训练数据中占据主导地位的部分原因是,互联网仍然超过 90% 使用英语,而且地球上仍然有很多地方的互联网连接非常差或根本没有,Hugging Face 的首席伦理学家吉亚达·皮斯蒂利 (Giada Pistilli) 说道,她不是该研究团队的成员。但她补充说,另一个原因是方便:将其他语言的数据集放在一起并考虑其他文化需要有意识的意图和大量的工作。
通过多模式模型,这些数据集的西方焦点变得尤为明显。例如,当人工智能模型被提示输入婚礼的景象和声音时,它可能只能代表西方婚礼,因为这就是它所接受的全部训练,胡克说。
这加剧了偏见,并可能导致人工智能模型推动某种以美国为中心的世界观,抹掉其他语言和文化。
“我们在世界各地使用这些模型,我们看到的世界与这些模型看不见的世界之间存在巨大差异,”胡克说。