作者:Kyle Wiggers
非营利性AI安全工作组MLCommons已与AI Dev平台拥抱面孔合作,发布了世界上最大的公共领域录音集,以供AI研究。
数据集,调用无监督的人的演讲,包含超过一百万小时的音频,至少涵盖89种语言。MLCommons说,是通过支持在言语技术各个领域的渴望来建立研发的动力。”
该组织在一家中写道博客文章周四。``我们预计研究界将继续建立和发展的几种途径,尤其是在改善低资源语言语音模型,跨不同口音和方言的语音识别以及语音综合中的新颖应用的领域。
可以肯定的是,这是一个令人钦佩的目标。但是,像无监督的人的语音这样的AI数据集可能会对选择使用它们的研究人员承担风险。
偏见的数据是这些风险之一。无监督的人的演讲中的录音来自Archive.org,这是一个非营利组织,也许以Wayback Machine Web档案工具而闻名。因为许多Archive.org的贡献者都是讲英语的,而美国的几乎所有录音都在无监督的人的演讲中,都是以美国为英语的英语根据官方项目页面上的读数。
这意味着,在不仔细过滤的情况下,诸如语音识别和语音合成器模型之类的AI系统接受了无监督的人的言语训练,可能会表现出一些相同的偏见。例如,他们可能难以抄录非母语说话者说的英语,或者难以用英语以外的其他语言产生综合声音。
无监督的人们的演讲也可能包含人们不知道他们的声音被用于AI研究目的的录音,包括商业应用。尽管MLCommons说数据集中的所有录音都是公共领域或在Creative Commons许可下可用的,但犯了可能性错误。
根据麻省理工学院分析,数百个公开可用的AI培训数据集缺乏许可信息并包含错误。创建者的倡导者包括Ed Newton-Rex,AI伦理学的非营利组织的首席执行官Ed Newton-Rex受过公平训练的培训,这使得创作者不应该选择退出AI数据集,因为繁重的负担反对了强度的负担在这些创造者上。
许多创作者(例如Squarespace用户)没有有意义的选择方法,牛顿 - 瑞克斯写道在去年6月的X上的帖子中。对于创造者能选择退出,有多种重叠的退出方法,这些方法(1)令人难以置信的令人困惑,并且(2)覆盖范围不完整。即使存在完美的普遍选择退出,考虑到生成的AI使用他们的工作与他们竞争,将选择退出负担放在创作者身上也是非常不公平的。
MLCommons表示,它致力于更新,维持和提高无监督人的演讲质量。但是,鉴于潜在的缺陷,开发商要谨慎行事。
凯尔·威格斯(Kyle Wiggers)是TechCrunch的高级记者,对人工智能特别感兴趣。他的写作出现在VentureBeat和数字趋势中,以及一系列小工具博客,包括Android警察,Android Authority,Droid-Life和XDA-Developers。他与他的伴侣,钢琴教育家一起住在布鲁克林,并在钢琴中牵涉。偶尔 - 如果大部分未成功。