2025-05-02 18:56:11 · 英文原文

扩增计划：全球化AI的局部数据

生成的AI模型能够将生活的各个方面从教育转变为全球创新，但是它们的范围并不与他们的培训数据的广度相匹配，这就是有限的在语言，主题和地理方面。

为了确保AI可以解决关键的本地需求 - 例如可访问的健康信息，与文化相关的课程和金融服务 - 我们需要多样化的高质量数据。这些数据应以自己的语言代表来自全球的人，他们的需求和价值观。如何收集这些数据也很重要。数据收集的未来需要在本地尊重，面向社区，并且负责任的。

为了帮助实现这些目标，我们介绍放大计划``一项旨在建立一个开放的基于社区的数据平台的努力，该平台可以在全球范围内扩展新颖的数据收集和验证。我们描述了通过在撒哈拉以南非洲进行的飞行员与领域专家共同创建数据集的方法。该研究通过Android应用程序实施，带来了一个注释的数据集，该数据集由七种语言的8091个对抗性查询与155位专家共同撰写。此外，Amplify的目标是在巴西和印度扩展这种方法，并确定捕获当前在网上尚未可用的知识的创新方法。

放大计划

Amplify Initiative旨在通过与当地社区的应用程序创建结构化的，具有文化相关的数据集。在高层，该平台使人们能够：

共同创建参与性的结构化数据集，这些数据集反映了世界各地的需求。在撒哈拉以南非洲的当前飞行员的基础上，Amplify倡议使每个地区的研究人员社区都可以定义数据需要负责任地开发AI并解决特定地区的问题。这些数据需求将在参与者和研究人员之间共享，因此他们可以对齐以创建高质量的数据集。
访问AI创新的高质量，多语言数据集。AI开发人员和研究人员可以利用使用Amplify创建的数据集来开发技术，模型和工具。访问开放数据将特别使来自全球南部的研究人员能够将AI用于其社区并解决紧迫的社会问题。数据适用于微调和评估。例如，这可能包括在斯瓦希里语中进行错误信息或微调数据集的基准测试数据集，以简化印度财务素养较低的人的财务术语。
因其对AI的宝贵贡献而获得认可和奖励。该平台为参与提供了奖励和认可，包括数据作者身份归因，专业证书和研究确认。将来，数据作者可能能够跟踪并查看其贡献如何影响AI创新。

撒哈拉以南非洲的飞行员

为了使这项计划成为现实，Google Research与Makerere University的AI实验室在乌干达，为与撒哈拉以南非洲的专家共同开发高质量数据集的地面试点计划。由于与Google的持续合作，Makerere的研究人员已经准备参加这样的计划潜在危害的研究在非洲的LLM中发现。

在一起，我们：

创建了一种与相关专家（即具有特定领域或学术专业知识的人，例如卫生工作者和老师）收集和验证有关显着领域（例如健康，教育，金融）的数据的方法。
确定了数据创建的奖励（例如，补偿，证书）。
使用应用程序收集数据建立生态系统。
在加纳，肯尼亚，马拉维，尼日利亚和乌干达训练和入职的259名专家，并使用了面对面的研讨会和应用程序培训。
收集了8,091个注释的对抗性查询，其中七种语言是由来自各个行业的155名专家合着的。

它如何工作

在开始数据收集之前，团队 - Google研究和合作伙伴机构 - 确定哪些特定领域对该地区最重要。邀请在这些领域配备专业或学术经验的专家来帮助数据收集过程。这种有意的方法是从可以确定最紧迫的本地问题的各种个人中收集数据的第一步。

团队成员和本地合作伙伴（特定于国家 /地区的研究领导）然后定义了需要纳入数据创建过程的准则。该团队还建立了培训材料，并为他们的语言专家举办了动手讲习班，并确保包括有关负责任的实践，潜在偏见问题和注释技术的指导。

为了扩展培训和数据收集，该团队构建了一个保护隐私的Android应用程序，供专家在创建数据之前使用。培训是传达数据目标并捕获与关键生成AI主题有关的本地相关问题的必要步骤，例如刻板印象，专业建议和错误信息。

使用此应用程序，专家创建和注释数据。该应用程序提供自动反馈，以确保查询与数据收集目标相关，并且它们没有创建与数据集中其他查询相似的重复或语义相似的查询。专家通过主题和域特定主题注释每个查询。

专家看到特定于其领域的注释主题。该应用程序使参与者可以轻松获得贡献奖励。它是针对每个参与国家的本地化的，包括根据地区的适应性认可和补偿。

数据收集完成后，区域合作伙伴和国家研究以语言和区域专业知识的领导来转换，评估和验证有关当地相关性，连贯性，流利性和覆盖范围的查询。该团队还使用AI使用自动方法来翻译和验证数据，然后再确定数据。

试点数据

作为飞行员的一部分，Makerere AI实验室和Google Research收集了8,091个注释的英语和六种非洲语言的对抗性查询（例如Pidgin English，Luganda，Luganda，Swahili，Chichewa）。这些查询本质上是对抗性的，很有可能产生LLM的不安全反应，以作为测试和减轻潜在伤害的一种手段。该数据集依次可用于评估模型在这些语言中的安全性和文化相关性。这数据集是开源的，可用于勘探。来自七个敏感领域（例如文化和宗教，就业）的专家在其专业知识领域（即政治和政府领域的腐败和透明度）中以十个主题的注释，五个生成的AI主题，五个生成的AI主题（例如，公共利益，误解，误解）和13个敏感的特征（例如，年龄），这些特征（例如，年龄）是相关的。

最突出的领域是健康（2,076）和教育（1,469），最高的主题分别是慢性病（373）和教育评估和测量（245）。

几乎80％的查询包含有关错误信息或虚假信息，刻板印象以及与公共福利有关的内容的上下文信息，例如健康或法律。大多数疑问都是关于属于性别（例如chibok girls），年龄（例如新生儿），宗教或信仰（例如，传统的非洲宗教）和教育水平（例如未经教育的）的社会群体。

数据集捕获了针对每个国家的独特关注，概念和社会群体。这包括植根于本地上下文，误解和谬论的对抗性查询。例如，一个查询抓住了乌干达妇女在怀孕期间食用特定类型的粘土的担忧，这是普遍的文化实践姿势潜在的健康风险。可以通过使用数据集中发现的各种文化细微差别来增强AI模型，从而使它们能够检测并适当响应广泛的人群。

将来放大倡议

与世界各地的社区建立信任是扩大倡议方法的核心。为此，Amplify正在扩大拉丁美洲以及南亚和东南亚的飞行员。团队已经与联邦米纳斯·格拉斯大学在巴西和印度理工学院哈拉格布尔在印度。

下一步是与合作伙伴一起收集和验证围绕不使用AI模型生成的局部问题的数据。该应用程序可能使这些地区的专家能够提示双子座的语言和国家中的关键问题，并修改生成的响应以捕获当前AI模型中缺少的上下文信息。通过使领域专家与双子座合作，Amplify可以在全球范围内识别和填补与显着问题有关的潜在数据差距：从巴西农民的农作物选择到在印度留学的价值。

加入Amplify Initiative

放大计划渴望赋予世界各地社区的权力，并将其置于下一波AI创新的驾驶员席位。如果您有兴趣了解有关该项目或参与您所在国家的更多信息，请表达兴趣这里。

致谢

与Makerere University的Joyce Nabande和Rehema Baguma的长期合作伙伴关系和连续领导使该项目成为可能。Andrew Katumba，Chodrine Mutebi，Jagen Marvin，Eric Peter Wairagala，Mugizi Bruce，Peter Oketta，Lawrence Nderu，Obichi Obiajunwa，Abigail Oppong和Michael Zimba为开发现有平台EcoSystem提供了无价的贡献。如果没有至关重要的努力和艾琳·范·列姆特（Erin Van Liemt），琥珀·埃比纳玛（Amber Ebinama），蒂法尼·施（Tiffany Shih），亚当·福布斯（Adam Forbes），卡拉·巴里奥斯·拉莫斯（Karla Barrios Ramos），玛德里玛·马吉（Madhurima Maji），艾西瓦里亚·维尔玛（Aishwarya Verma），查鲁·卡利亚（Charu Kalia）和亚历山大·扎诺尼（Alexandre Zanoni Zanoni from Google Research）的重要努力和领导才能，该项目将不会成功。我们感谢Jamila Smith-Loud，Tiffany Deng，Saå‘KaMojsiloviä和Marian Croak的持续支持和指导。最后，我们感谢“放大计划”中列出的数据作者纸，没有谁，数据集将是不可能的。

关于《扩增计划：全球化AI的局部数据》的评论

暂无评论

发表评论

摘要

** Amplify计划**旨在构建各种各样的对抗性查询数据库，该数据库为其安全性，文化相关性和上下文准确性测试AI模型在全球范围内的各种语言和地区。该倡议至关重要，因为它解决了大语模型（LLMS）使用的现有数据集中缺乏具有文化特定数据的，这通常会导致不准确或有害的响应。###放大计划的关键组件：1。**试点研究：** - **与Makerere大学合作：**试点阶段涉及与Makerere University合作，收集七种非洲语言和英语的8,091次对抗性查询。 - **涵盖的领域：**查询是从敏感领域（例如文化和宗教，就业，健康，教育，政治和政府等）注释的。每个查询都是根据与这些域相关的特定主题进行分类的。2。**对抗查询特征：** - 查询测试了从LLM产生不安全响应的可能性。 - 主题包括医疗保健中的慢性疾病，教育评估方法，公共利益，错误信息，刻板印象以及与年龄，性别，宗教和社会经济地位有关的福利问题。3。**本地化和翻译：** - 对每个参与国家的疑问都是本地化的，并转化为各种非洲语言，以确保相关性和上下文的准确性。 - 该数据由具有语言专业知识的区域合作伙伴评估和验证，以保持连贯性和流利性。4。**未来扩展：** - **拉丁美洲和亚洲：**计划规划拉丁美洲（与联邦米纳斯大学的合作）和南亚/东南亚（与印度科技学院Kharagpur合作）。 - 重点将是收集有关关键的本地化问题的数据，这些问题无法通过当前的AI模型来充分解决，例如为农民选择农作物或女孩的教育价值。5。**社区参与：** - 放大计划旨在通过使他们参与下一波AI创新来赋予全球社区的能力。 - 感兴趣的个人和组织可以通过在其网站上表达兴趣来参与其中。###关键好处： - **增强的文化相关性：**通过结合各种文化上的细微差别，该计划有助于提高广泛人群的模型准确性。 - **缓解潜在危害：**对对抗性查询进行测试LLM，通过识别和解决潜在有害产出来增强其安全性。 - **全球合作：**该项目促进了国际合作，将学术界，行业专家和社区成员汇集在一起，以创建强大的数据集。＃＃＃结论：放大计划代表着建立更具包容性和文化敏感的AI模型的重要一步。通过使各种社区参与数据收集和验证过程，它旨在弥合全球AI技术与本地需求之间的差距，从而使AI系统更安全，对全球用户更有效。

OC