作者:By Melissa Heikkiläarchive page
我们正处于语音人工智能热潮的风口浪尖,苹果和 OpenAI 等科技公司推出了下一代人工智能助手。但这些助理的默认声音通常是美国白人——如果幸运的话,是英国人——而且肯定会说英语。它们只代表英语中众多方言和口音的一小部分,而英语跨越了许多地区和文化。如果您是数十亿不会说英语的人之一,那么运气不好:这些工具在其他语言中听起来并不那么好。
这是因为用于训练这些模型的数据是有限的。在人工智能研究中,大多数用于训练模型的数据都是从英语互联网中提取的,这反映了英美文化。但为了改变这种现状,并为人工智能带来更多的透明度和多样性,草根们正在进行大规模的努力:Mozilla 的 Common Voice 计划。
Common Voice 在过去七年中创建的数据集对于想要构建语音 AI 的人们来说是最有用的资源之一。下载量大幅增长,部分原因是当前人工智能的蓬勃发展;它最近达到了 500 万大关,高于 2020 年的 38,500 个。创建这个数据集并不容易,主要是因为数据收集依赖于大量志愿者。他们的数量也猛增,从 2020 年的略低于 50 万增加到 2024 年的超过 90 万。但该社区的一些成员认为,Mozilla 通过泄露数据,是在鼓励志愿者有效地为大型科技公司提供免费劳动力。
自 2017 年以来,Common Voice 项目的志愿者已收集了俄语、加泰罗尼亚语和马拉地语等约 180 种语言的总计 31,000 小时的语音数据。如果您使用过使用音频 AI 的服务,那么它可能至少部分接受过 Common Voice 培训。
Mozilla 的事业是一项崇高的事业。随着人工智能越来越多地融入我们的生活和我们的沟通方式,我们与之互动的工具听起来像我们一样变得更加重要。该技术可以打破沟通障碍,帮助以令人信服的方式向不识字的人传达信息。但相反,对英语的强烈关注可能会巩固一种新殖民主义世界秩序并彻底消灭语言。
“如果我们实际上最终强迫每个人都使用英语或法语等语言进行操作,而不是最终创建真正的多模式、多语言、高性能翻译模型并创造一个更加多语言的世界,那么这将是一个自己的目标。”Common Voice 总监 EM Lewis-Jong 说道。
Common Voice 是开源的,这意味着任何人都可以看到数据集中的内容,并且用户可以免费使用它做任何他们想做的事情。这种透明度在人工智能数据治理中是不寻常的。据介绍,大多数大型音频数据集根本无法公开获取,而且许多数据都包含从 YouTube 等网站抓取的数据研究由华盛顿大学、卡内基梅隆大学和西北大学的一个团队进行。
绝大多数语言数据是由来自土耳其的研究人员 Bülent Özden 等志愿者收集的。自 2020 年以来,他不仅捐出了自己的声音,还提高了对该项目的认识,以吸引更多人捐款。他最近花了两个月的全职时间纠正数据并检查土耳其语的拼写错误。对他来说,改进人工智能模型并不是做这项工作的唯一动机。
“我这样做是为了保护文化,尤其是资源匮乏的[语言],”阿兹登说。他告诉我,他最近开始收集土耳其较小语言的样本,例如切尔克斯语和扎扎语。
然而,当我深入研究数据集时,我注意到语言和口音的覆盖范围非常不均匀。只有 231 个人的 22 小时芬兰语声音。相比之下,该数据集包含 94,665 位使用者的 3,554 小时英语。有些语言,例如韩语和旁遮普语,甚至没有得到很好的体现。尽管他们拥有数千万的发言者,但他们只记录了几个小时的记录数据。
Lewis-Jong 表示,这种不平衡的出现是因为数据收集工作是由语言社区本身自下而上开始的。
– 我们正在努力为社区提供创建自己的 AI 训练数据集所需的资源。我们特别关注那些没有任何数据的语言社区,或者大型技术组织可能对创建这些数据集不那么感兴趣,”Lewis-Jong 说。他们希望在志愿者和各种补助资金的帮助下,Common Voice 数据集到今年年底将拥有近 200 种语言。
Common Voice 的宽松许可意味着许多公司都依赖它,例如瑞典初创公司 Mabel AI,该公司为医疗保健提供商构建翻译工具。该公司最早使用的语言之一是乌克兰语。Mabel AI 创始人兼首席执行官 Karolina Sjöberg 表示,该公司开发了一款翻译工具来帮助乌克兰难民与瑞典社会服务机构互动。此后,该团队已扩展到其他语言,例如阿拉伯语和俄语。
许多其他音频数据的问题在于它由人们阅读书籍或文本组成。Sjöberg 说,结果与人们真正的说话方式有很大不同,尤其是当他们感到苦恼或痛苦时。她说,由于任何人都可以向 Common Voice 提交句子供其他人朗读,因此 Mozilla 的数据集还包括更口语化、感觉更自然的句子。
并不是说它完全具有代表性。Mabel AI 团队很快发现,其所需语言的大多数语音数据都是由年轻人捐赠的,这对于数据集来说是相当典型的。
“我们打算使用该应用程序的难民实际上绝非年轻人,”Sjöberg 说。“因此,这意味着我们需要的语音数据与我们现有的语音数据并不完全匹配。”该团队开始从乌克兰妇女以及老年人那里收集自己的语音数据。
与其他数据集不同,Common Voice 要求参与者分享他们的性别和有关口音的详细信息。Common Voice 研究员丽贝卡·里亚基廷博 (Rebecca Ryakitimbo) 创建了该项目的性别行动计划,她表示,确保不同性别得到代表对于消除人工智能模型中的偏见非常重要。更多的多样性不仅可以带来更好的代表性,而且可以带来更好的模型。使用狭窄且同质的数据进行训练的系统往往会产生刻板且有害的结果。
“我们不希望出现这样的情况:我们的聊天机器人以女性名字命名,但对女性的反应却不同于男性,”她说。
Ryakitimbo 收集了坦桑尼亚、肯尼亚和刚果民主共和国的斯瓦希里语语音数据。她告诉我,她想收集社会经济背景各异的斯瓦希里语使用者的声音,并接触了生活在农村地区的年轻和老年妇女,她们可能并不总是识字,甚至无法使用设备。
这种数据收集具有挑战性。对于许多人来说,收集人工智能语音数据的重要性可能很抽象,特别是如果他们不熟悉这些技术的话。Ryakitimbo 和志愿者会在女性感到安全的环境中接触她们,例如有关经期卫生的演示,并解释该技术如何帮助传播有关月经的信息。对于不知道如何阅读的女性,团队会读出她们会在录音中重复的句子。
Common Voice 项目的支持是基于这样的信念:语言是身份的一个非常重要的组成部分。“我们认为这不仅与语言有关,还与传播文化和遗产以及珍惜人们特定的文化背景有关,”刘易斯-琼说。“有各种各样的习语和文化流行语是无法翻译的,”他们补充道。
卡内基梅隆大学研究音频数据集的研究员 Willie Agnew 表示,Common Voice 是唯一一个英语不占主导地位的音频数据集。“他们在这方面的表现以及他们制作的数据集实际上相当多样化,给我留下了深刻的印象,”阿格纽说。“感觉它们远远领先于我们研究过的几乎所有其他项目。”
我花了一些时间在 Common Voice 平台上验证其他芬兰语使用者的录音。当他们的声音在我的书房里回响时,我感到意外的感动。我们都围绕着同一个目标聚集在一起:让人工智能数据更具包容性,并确保我们的文化和语言在下一代人工智能工具中得到正确体现。
但我有一些大问题,如果我捐献我的声音会发生什么。一旦它进入数据集中,我就无法控制它之后如何使用。科技行业并不以给予人们适当的信用,并且这些数据可供任何人使用。
“尽管我们希望它能够造福当地社区,但大型科技公司也有可能利用相同的数据并构建一些东西,然后作为商业产品出现,”Ryakitimbo 说。尽管 Mozilla 没有透露谁下载了 Common Voice,但 Lewis-Jong 告诉我 Meta 和 Nvidia 都表示他们已经使用了它。
卡内基梅隆大学研究员 Harry H. Jiang 是审计研究团队的一员,他表示,开放获取这些来之不易的稀有语言数据并不是所有少数群体都想要的。例如,原住民群体引起了担忧。
Lewis-Jong 表示,“提取主义”是 Mozilla 在过去 18 个月里一直在思考的问题。今年晚些时候,该项目将与社区合作试点替代许可证,包括Nwulite Obodo 开放数据许可证,由比勒陀利亚大学的研究人员创建,旨在更公平地共享非洲数据集。例如,想要下载数据的人可能会被要求编写一个请求,其中详细说明他们计划如何使用数据,并且可能只允许他们为某些产品或在有限的时间内获得许可。刘易斯-琼表示,用户可能还会被要求为支持减贫的社区项目做出贡献。
Lewis-Jong 表示,该试点是一项学习活动,旨在探索人们是否需要具有替代许可证的数据,以及这些数据对于管理这些数据的社区来说是否可持续。人们希望它能够带来类似“开源 2.0”的结果。
最后,我决定捐出我的声音。我收到了要说的短语列表,坐在电脑前,然后点击了“录音”。我希望有一天,我的努力能够帮助一家公司或研究人员构建听起来不那么通用、更像我的语音人工智能。
这个故事已经更新。