生成的AI模型能够将生活的各个方面从教育转变为全球创新,但是它们的范围并不与他们的培训数据的广度相匹配,这就是有限的在语言,主题和地理方面。
为了确保AI可以解决关键的本地需求 - 例如可访问的健康信息,与文化相关的课程和金融服务 - 我们需要多样化的高质量数据。这些数据应以自己的语言代表来自全球的人,他们的需求和价值观。如何收集这些数据也很重要。数据收集的未来需要在本地尊重,面向社区,并且负责任的。
为了帮助实现这些目标,我们介绍放大计划``一项旨在建立一个开放的基于社区的数据平台的努力,该平台可以在全球范围内扩展新颖的数据收集和验证。我们描述了通过在撒哈拉以南非洲进行的飞行员与领域专家共同创建数据集的方法。该研究通过Android应用程序实施,带来了一个注释的数据集,该数据集由七种语言的8091个对抗性查询与155位专家共同撰写。此外,Amplify的目标是在巴西和印度扩展这种方法,并确定捕获当前在网上尚未可用的知识的创新方法。
Amplify Initiative旨在通过与当地社区的应用程序创建结构化的,具有文化相关的数据集。在高层,该平台使人们能够:
为了使这项计划成为现实,Google Research与Makerere University的AI实验室在乌干达,为与撒哈拉以南非洲的专家共同开发高质量数据集的地面试点计划。由于与Google的持续合作,Makerere的研究人员已经准备参加这样的计划潜在危害的研究在非洲的LLM中发现。
在一起,我们:
在开始数据收集之前,团队 - Google研究和合作伙伴机构 - 确定哪些特定领域对该地区最重要。邀请在这些领域配备专业或学术经验的专家来帮助数据收集过程。这种有意的方法是从可以确定最紧迫的本地问题的各种个人中收集数据的第一步。
团队成员和本地合作伙伴(特定于国家 /地区的研究领导)然后定义了需要纳入数据创建过程的准则。该团队还建立了培训材料,并为他们的语言专家举办了动手讲习班,并确保包括有关负责任的实践,潜在偏见问题和注释技术的指导。
为了扩展培训和数据收集,该团队构建了一个保护隐私的Android应用程序,供专家在创建数据之前使用。培训是传达数据目标并捕获与关键生成AI主题有关的本地相关问题的必要步骤,例如刻板印象,专业建议和错误信息。
使用此应用程序,专家创建和注释数据。该应用程序提供自动反馈,以确保查询与数据收集目标相关,并且它们没有创建与数据集中其他查询相似的重复或语义相似的查询。专家通过主题和域特定主题注释每个查询。
专家看到特定于其领域的注释主题。该应用程序使参与者可以轻松获得贡献奖励。它是针对每个参与国家的本地化的,包括根据地区的适应性认可和补偿。
数据收集完成后,区域合作伙伴和国家研究以语言和区域专业知识的领导来转换,评估和验证有关当地相关性,连贯性,流利性和覆盖范围的查询。该团队还使用AI使用自动方法来翻译和验证数据,然后再确定数据。
作为飞行员的一部分,Makerere AI实验室和Google Research收集了8,091个注释的英语和六种非洲语言的对抗性查询(例如Pidgin English,Luganda,Luganda,Swahili,Chichewa)。这些查询本质上是对抗性的,很有可能产生LLM的不安全反应,以作为测试和减轻潜在伤害的一种手段。该数据集依次可用于评估模型在这些语言中的安全性和文化相关性。这数据集是开源的,可用于勘探。来自七个敏感领域(例如文化和宗教,就业)的专家在其专业知识领域(即政治和政府领域的腐败和透明度)中以十个主题的注释,五个生成的AI主题,五个生成的AI主题(例如,公共利益,误解,误解)和13个敏感的特征(例如,年龄),这些特征(例如,年龄)是相关的。
最突出的领域是健康(2,076)和教育(1,469),最高的主题分别是慢性病(373)和教育评估和测量(245)。
几乎80%的查询包含有关错误信息或虚假信息,刻板印象以及与公共福利有关的内容的上下文信息,例如健康或法律。大多数疑问都是关于属于性别(例如chibok girls),年龄(例如新生儿),宗教或信仰(例如,传统的非洲宗教)和教育水平(例如未经教育的)的社会群体。
与世界各地的社区建立信任是扩大倡议方法的核心。为此,Amplify正在扩大拉丁美洲以及南亚和东南亚的飞行员。团队已经与联邦米纳斯·格拉斯大学在巴西和印度理工学院哈拉格布尔在印度。
下一步是与合作伙伴一起收集和验证围绕不使用AI模型生成的局部问题的数据。该应用程序可能使这些地区的专家能够提示双子座的语言和国家中的关键问题,并修改生成的响应以捕获当前AI模型中缺少的上下文信息。通过使领域专家与双子座合作,Amplify可以在全球范围内识别和填补与显着问题有关的潜在数据差距:从巴西农民的农作物选择到在印度留学的价值。
放大计划渴望赋予世界各地社区的权力,并将其置于下一波AI创新的驾驶员席位。如果您有兴趣了解有关该项目或参与您所在国家的更多信息,请表达兴趣这里。
与Makerere University的Joyce Nabande和Rehema Baguma的长期合作伙伴关系和连续领导使该项目成为可能。Andrew Katumba,Chodrine Mutebi,Jagen Marvin,Eric Peter Wairagala,Mugizi Bruce,Peter Oketta,Lawrence Nderu,Obichi Obiajunwa,Abigail Oppong和Michael Zimba为开发现有平台EcoSystem提供了无价的贡献。如果没有至关重要的努力和艾琳·范·列姆特(Erin Van Liemt),琥珀·埃比纳玛(Amber Ebinama),蒂法尼·施(Tiffany Shih),亚当·福布斯(Adam Forbes),卡拉·巴里奥斯·拉莫斯(Karla Barrios Ramos),玛德里玛·马吉(Madhurima Maji),艾西瓦里亚·维尔玛(Aishwarya Verma),查鲁·卡利亚(Charu Kalia)和亚历山大·扎诺尼(Alexandre Zanoni Zanoni from Google Research)的重要努力和领导才能,该项目将不会成功。我们感谢Jamila Smith-Loud,Tiffany Deng,Saå‘KaMojsiloviä和Marian Croak的持续支持和指导。最后,我们感谢“放大计划”中列出的数据作者 纸,没有谁,数据集将是不可能的。