OpenAI 通过发布大规模多语言 AI ​​数据集解决全球语言鸿沟 - VentureBeat

2024-09-24 00:33:00 英文原文

加入我们的每日和每周时事通讯,了解有关行业领先人工智能报道的最新更新和独家内容。了解更多

OpenAI 发布了一个多语言数据集,该数据集可评估 14 种语言(包括阿拉伯语、德语、斯瓦希里语、孟加拉语和约鲁巴语)的语言模型的性能,从而在扩大人工智能的全球影响力方面迈出了重要一步。

该公司在开放数据平台 Hugging Face 上分享了多语言大规模多任务语言理解(MMMLU)数据集。这项新的评估建立在流行的大规模多任务语言理解 (MMLU) 基准的基础上,该基准测试了从数学到法律和计算机科学等 57 个学科的人工智能系统知识,但仅限英语。

通过整合多样化的数组将多种语言纳入新的多语言评估,其中一些AI训练数据资源有限,OpenAI为多语言AI能力树立了新标杆。该基准可以为全球提供更公平的技术获取机会。人工智能行业因无法开发能够理解全球数百万人使用的语言的语言模型而面临批评。

OpenAI 提供了评估多语言人工智能的全球基准

MMMLU 数据集挑战人工智能模型可以在不同的语言环境中执行,反映出对能够与全球用户互动的人工智能系统日益增长的需求。随着企业和政府越来越多地采用人工智能驱动的解决方案,对能够理解和生成多种语言文本的模型的需求变得更加紧迫。

直到最近,人工智能研究主要集中在英语和一些广泛的领域。口语,留下许多资源匮乏的语言。OpenAI 决定将斯瓦希里语和约鲁巴语等语言纳入其中,这些语言有数百万人使用,但在人工智能研究中经常被忽视,这标志着向更具包容性的人工智能技术的转变。此举对于希望在新兴市场部署人工智能解决方案的企业尤其重要,因为语言障碍历来构成重大挑战。

人工翻译提高了多语言人工智能准确性的门槛

使用 OpenAI专业人工翻译人员创建 MMMLU 数据集,确保比依赖机器翻译的同类数据集更高的准确性。自动翻译工具经常会引入细微的错误,特别是在可训练资源较少的语言中。通过依靠人类的专业知识,OpenAI 确保数据集为评估多种语言的 AI 模型提供更可靠的基础。

这一决定对于精度不容妥协的行业至关重要。在医疗保健、法律和金融等领域,即使是很小的翻译错误也可能产生严重影响。OpenAI 专注于翻译质量,这使得 MMMLU 数据集成为需要 AI 系统跨语言和文化边界可靠执行的企业的关键工具。

Hugging Face 合作伙伴关系促进了对多语言 AI ​​数据的开放获取

<通过在 Hugging Face(一个用于共享机器学习模型和数据集的流行平台)上发布 MMMLU 数据集,OpenAI 正在吸引更广泛的人工智能研究社区。Hugging Face 已成为开源人工智能工具的首选目的地,MMMLU 数据集的添加标志着 OpenAI 致力于推进人工智能研究的开放获取。

但是,此版本发布之际,OpenAI 的开放方式面临着越来越多的审查。近几个月来,批评不断增多,尤其是来自联合创始人埃隆·马斯克(Elon Musk)的批评,他指责该公司偏离了其作为开源、非营利实体的初衷。马斯克在今年早些时候提起的诉讼称,OpenAI 转向营利性活动,尤其是与微软的合作,违背了公司的创始原则。

尽管如此,OpenAI 仍为其当前战略进行了辩护,认为它优先考虑的是开放获取,而不是开放获取。比开源。在此框架中,OpenAI 的目标是提供对其技术的广泛访问,而不必共享其最先进模型的内部工作原理。MMMLU 数据集的发布符合这一理念,为研究社区提供了一个强大的工具,同时保持对其专有模型的控制。

OpenAI Academy:扩大新兴市场对人工智能的访问

除了 MMMLU 数据集发布之外,OpenAI 还通过推出 OpenAI Academy 进一步履行其对全球人工智能可及性的承诺。该学院与 MMMLU 数据集同一天宣布,旨在投资于利用人工智能解决社区关键问题的开发者和使命驱动组织,特别是在低收入和中等收入国家。

<学院将提供培训、技术指导和100万美元的API学分,以确保本地人工智能人才能够获得尖端资源。通过支持了解所在地区独特社会和经济挑战的开发人员,OpenAI 希望帮助社区构建适合当地需求的人工智能应用程序。

该计划强调 OpenAI 打造先进人工智能的目标,对 MMMLU 数据集进行了补充。为多元化的全球社区提供工具和教育。MMMLU 数据集和学院都反映了 OpenAI 的长期战略,即确保人工智能发展造福全人类,特别是传统上未能获得最新人工智能进步服务的社区。

多语言人工智能为企业提供竞争优势

对于企业来说,MMMLU 数据集提供了在全球背景下对自己的人工智能系统进行基准测试的机会。随着公司向国际市场扩张,部署理解多种语言的人工智能解决方案的能力变得至关重要。无论是客户服务、内容审核还是数据分析,跨语言表现良好的人工智能系统都可以通过减少沟通摩擦和改善用户体验来提供竞争优势。

数据集专注于专业和学术科目补充道为企业带来另一层价值。法律、教育和研究公司可以使用 MMMLU 数据集来测试其人工智能模型在专业领域的表现,确保其系统满足这些行业所需的高标准。随着人工智能不断发展,以多种语言处理复杂、特定领域任务的能力将成为企业在全球舞台上竞争的关键差异化因素。

多语言的未来:MMMLU 数据集对人工智能意味着什么

MMMLU 数据集的发布可能会对人工智能行业产生持久的影响。随着越来越多的公司和研究人员开始根据这种多语言基准测试他们的模型,对能够跨语言无缝运行的人工智能系统的需求只会增长。这可能会带来语言处理方面的新创新,并在世界上传统上技术服务不足的地区更多地采用人工智能解决方案。

对于 OpenAI 来说,MMMLU 数据集既是挑战,也是机遇。机会。一方面,该公司将自己定位为多语言人工智能领域的领导者,提供解决当前人工智能领域关键差距的工具。另一方面,OpenAI 不断演变的开放立场将继续受到审查,因为它解决了公共利益和私人利益之间的紧张关系。

随着人工智能日益融入全球经济,公司和政府都将需要解决这些技术的伦理和实际影响。OpenAI 发布 MMMLU 数据集是朝着正确方向迈出的一步,但它也提出了重要问题:人工智能革命将在多大程度上向所有人开放。

关于《OpenAI 通过发布大规模多语言 AI ​​数据集解决全球语言鸿沟 - VentureBeat》
暂无评论

摘要

加入我们的每日和每周时事通讯,了解有关行业领先人工智能报道的最新更新和独家内容。OpenAI 专注于翻译质量,将 MMMLU 数据集定位为需要 AI 系统跨语言和文化边界可靠执行的企业的关键工具。Hugging Face 已成为开源人工智能工具的首选,MMMLU 数据集的添加标志着 OpenAI 致力于推进人工智能研究的开放获取。MMMLU 数据集和学院都反映了 OpenAI 的长期战略,即确保人工智能的发展造福全人类,特别是传统上未能获得最新人工智能进步服务的社区。随着人工智能的不断发展,以多种语言处理复杂的、特定领域任务的能力将成为企业在全球舞台上竞争的关键优势。