扩增计划:全球化AI的局部数据
2025-05-02 18:56:11
** Amplify计划**旨在构建各种各样的对抗性查询数据库,该数据库为其安全性,文化相关性和上下文准确性测试AI模型在全球范围内的各种语言和地区。该倡议至关重要,因为它解决了大语模型(LLMS)使用的现有数据集中缺乏具有文化特定数据的,这通常会导致不准确或有害的响应。###放大计划的关键组件:1。**试点研究:** - **与Makerere大学合作:**试点阶段涉及与Makerere University合作,收集七种非洲语言和英语的8,091次对抗性查询。 - **涵盖的领域:**查询是从敏感领域(例如文化和宗教,就业,健康,教育,政治和政府等)注释的。每个查询都是根据与这些域相关的特定主题进行分类的。2。**对抗查询特征:** - 查询测试了从LLM产生不安全响应的可能性。 - 主题包括医疗保健中的慢性疾病,教育评估方法,公共利益,错误信息,刻板印象以及与年龄,性别,宗教和社会经济地位有关的福利问题。3。**本地化和翻译:** - 对每个参与国家的疑问都是本地化的,并转化为各种非洲语言,以确保相关性和上下文的准确性。 - 该数据由具有语言专业知识的区域合作伙伴评估和验证,以保持连贯性和流利性。4。**未来扩展:** - **拉丁美洲和亚洲:**计划规划拉丁美洲(与联邦米纳斯大学的合作)和南亚/东南亚(与印度科技学院Kharagpur合作)。 - 重点将是收集有关关键的本地化问题的数据,这些问题无法通过当前的AI模型来充分解决,例如为农民选择农作物或女孩的教育价值。5。**社区参与:** - 放大计划旨在通过使他们参与下一波AI创新来赋予全球社区的能力。 - 感兴趣的个人和组织可以通过在其网站上表达兴趣来参与其中。###关键好处: - **增强的文化相关性:**通过结合各种文化上的细微差别,该计划有助于提高广泛人群的模型准确性。 - **缓解潜在危害:**对对抗性查询进行测试LLM,通过识别和解决潜在有害产出来增强其安全性。 - **全球合作:**该项目促进了国际合作,将学术界,行业专家和社区成员汇集在一起,以创建强大的数据集。### 结论:放大计划代表着建立更具包容性和文化敏感的AI模型的重要一步。通过使各种社区参与数据收集和验证过程,它旨在弥合全球AI技术与本地需求之间的差距,从而使AI系统更安全,对全球用户更有效。