英语轻松读发新版了,欢迎下载、更新

使人工智能像欧洲一样多语言的竞赛

2025-06-30 06:00:00 英文原文

作者:Chris Chinchilla

欧盟有24种官方语言在整个非洲大陆上说的数十个非正式的人。如果您加入联盟以外的欧洲国家,那么这将使至少十二个组合。添加方言,濒危语言,以及移民带到欧洲的语言,您最终都有数百种语言。

我们许多技术中的许多人都可以同意的一件事是,美国统治着,并且扩展到在线语言。造成这种情况的原因很多,主要是由于美国机构,标准机构和公司定义了计算机,操作系统以及它们在新生时代运行的软件如何工作。这正在发生变化,但至少在短期内,它仍然是常态。这也导致大多数网络使用英语。惊人的50%的网站使用英语,尽管它是全球大约6%的人口的母语,其次是西班牙,德语和日本人,但落后了很长一段路,每个人的网络仅占5-6%的网络。

随着我们深入研究AI驱动的应用程序和服务的新浪潮,许多人是由大语言模型(LLMS)中的数据驱动的。这些LLM中的许多数据都从网络上刮除(在许多情况下是有争议的),但LLMS主要理解并以英语做出回应。当我们发现自己在AI工具快速增长引起的技术范式的开始或中间,这是一个问题,这是一个问题,我们将这个问题带入了新时代。

欧洲已经拥有几家备受瞩目的人工智能公司和项目,例如Mistral拥抱脸Google Deepmind也起源于欧洲公司。该大陆的研究项目开发了语言模型,以增强AI工具如何理解不常见的语言。

本文探讨了其中一些举措,质疑其有效性,并询问他们的努力是否值得,或者是否有许多用户默认使用英语版本的工具。随着欧洲试图在AI和ML建立独立性,非洲大陆是否拥有实现目标所需的公司和技能?

术语和技术入门

为了理解以下内容,您不需要了解如何创建,训练或运行模型。但是了解一些有关模型及其人类语言支持的基础知识的帮助。

除非模型文档明确提到多语言或跨语义,提示它或要求使用不受支持的语言进行响应可能会导致它来回翻译或用一种语言响应理解。两种策略都可以产生不可靠且不一致的结果 - 尤其是在低资源语言中。

尽管高资源语言,例如英语,受益于丰富的培训数据低资源语言,例如盖尔语或加利西亚语,其具有较少的语言,这通常会导致性能劣等

关于模型的更难解释的概念是开放的。我不想深入研究这个话题,因为确切的定义仍然处于不断变化和有争议的状态。摘要是,即使模型可以自称为开放,并被称为“开放”,开放的含义也不是一样。

以下是其他两个有用的术语:

训练教一个模型根据输入数据做出预测或决策。

参数是在模型训练期间学到的变量,可以定义模型映射输入到输出的方式。换句话说,它如何理解和回答您的问题。参数的数量越大,模型越复杂。

有了简短的解释,欧洲AI公司和项目如何努力提高这些过程以改善欧洲语言支持?

拥抱脸

当某人想要共享代码时,他们通常会提供指向其GitHub存储库的链接。当某人想共享模型时,他们通常会提供拥抱的脸部链接。该公司由法国企业家于2016年成立,该公司积极参与创建社区和公开模型的强烈拥护者。2024年,它启动了欧洲初创公司的AI ACELERATOR,并与Meta合作开发基于翻译工具没有留下的语言。他们也是背后的驱动力之一Bloom模型这是一种开创性的多语言模型,为国际合作,开放性和培训方法设定了新的标准。

拥抱面孔是对模型中语言支持的大致了解的有用工具。在写作时,拥抱的脸列表1,743,136款298,927个数据集。看看它排行榜单语模型和数据集,您会看到开发人员标记(添加元数据)的模型和数据集的以下排名是在写作时支持欧洲语言:

语言 语言代码 数据集 型号
英语 en 27,702 205,459
英语 工程 1,370 1,070
法语 fra 1,933 850
西班牙语espaã±ol es 1,745 10,028
德国德意志 de 1,442 9,714
英语 工程 1,370 1,070

您已经可以在这里看到一些问题。这些thain标签固定在石头上。社区可以自由添加价值。虽然您可以看到它们在大多数情况下都遵循它们,但有一些重复。

如您所见,这些模型由英语主导。一个类似的问题适用于拥抱面的数据集,该数据集缺乏非英语数据。

这是什么意思?

欧盟的欧盟政策负责人Lucie-aimâ©e Kaffee表示,标签表明模型已经经过培训,可以理解和处理该语言,或者数据集包含该语言的材料。她补充说,语言支持之间的混乱经常在培训期间出现。当训练大型模型时,其他语言通常会因培训而被抓住,因为该数据集中有一些文物。”她说。模型标记的语言通常是开发人员打算理解的。

作为模型开发人员和研究人员的主要和最繁忙的目的地之一,拥抱面对他们的大部分作品,而且还可以让他们创建向外的社区,以告诉人们如何使用它们。

Thomas Wolf, Co-founder & Chief Science Officer, Hugging Face, on Centre Stage during day one of Web Summit 2024 at the MEO Arena in Lisbon, Portugal.
拥抱脸的联合创始人托马斯·沃尔夫(Thomas Wolf)将布卢姆描述为世界上最大的开放多语言模型。Shauna Clinton/Web峰会通过SportsFile

Mistral AI

也许最著名的基于欧洲的人工智能公司是法国Mistral AI不幸的是,这拒绝了采访。它的多语言挑战部分启发了本文。Fosdem开发人员会议2024年2月,语言学研究人员朱莉·亨特(Julie Hunter)向法语中的食谱询问了其中一种米斯特拉尔(Mistral)的模型,但它以英语做出了回应。但是,16个月是AI开发中的永恒性,并且在最近的测试中,公司的聊天界面界面都不是在本地重现了相同的错误。但是有趣的是,7B确实在开场白中产生了拼写错误:boueef and可能会随之而来。

米斯特拉尔(Mistral)出售几种商业模型,工具和服务,但免费使用模型很受欢迎,我个人倾向于使用Mistral 7b用于通过本地模型运行任务。

直到最近,该公司还没有明确有关其模型的多语言支持,而是宣布裁判型在2025年6月的伦敦科技周上,证实了对几种欧洲语言的支持。

EUROLLMEUROLLM

是作为葡萄牙AI平台之间的合作伙伴关系创建的不受欢迎以及几所欧洲大学,以了解和生成所有欧洲官方语言的文本。该模型还包括非欧洲语言,由移民社区和主要贸易伙伴(例如印地语,中文和土耳其语)广泛使用。

像本文中的其他一些开放模型项目一样,其工作部分由欧盟高性能计算联合企业计划(EUROHPC JU)。他们中的许多人共享相似的名称和目标,使它们全部分开。Eurollm是第一个,正如Umbasel的高级研究科学家Ricardo Rei告诉我,该团队从此后的项目中学到了很多东西。

由于Umbasel的主要业务是语言翻译,而翻译是许多多语言模型的关键任务,因此Eurollm上的工作对葡萄牙平台很有意义。在Eurollm之前,Unberbel已经在完善了现有的模型以制作自己的模型,并发现它们都以英语为中心。

该团队最大的挑战之一是为低资源语言找到足够的培训数据。最终,培训材料的可用性反映了说这种语言的人数。用于培训欧洲语言模型的常见数据源之一是Europarl,其中包含欧洲议会活动转化为所有官方欧盟语言的成绩单。也是如此作为拥抱的脸部数据集可用,感谢Zã¼rich

目前,该项目有一个1.7B参数模型9B参数模型,并且正在开发22B参数模型。在所有情况下,这些模型都可以翻译,但也是通用的,这意味着您可以以类似于Chatgpt,混合和匹配语言与他们聊天。

欧洲欧洲欧洲欧洲

不是直接建造任何东西,但是它促进了欧洲范围内的LLM项目社区,特别是中低资源的语言。不要让一页的github存储库欺骗您:Discord服务器活跃而活跃

OpenEurollm,Lumi和Silo

几所欧洲大学和公司之间的联合项目,OpenEurollm是EuroHPC资助的项目列表的较新和更大的参赛者之一。这意味着它到目前为止尚无公共模型,但它涉及许多机构和个人背后的机构和个人Lumi模型家族专注于斯堪的纳维亚语和北欧语言。它旨在创建一个多语言模型,为其他模型提供更多数据集并符合欧盟AI法

我谈过彼得·萨林AMD筒仓,参与该项目的一家公司以及芬兰和欧洲AI开发的关键人物,涉及该计划。他解释说,尤其是芬兰,有多家机构研究计划,包括Lumi,Eurohpc的超级计算机之一。筒仓,通过其硅质产品提供开源向客户的模型,专注于支持欧洲语言。萨林(Sarlin)指出,尽管主权是他的重要动机,也是建立和维护支持欧洲语言的模型的重要动机,但更好的理由是扩大业务,并帮助公司为爱沙尼亚等小型市场建立解决方案。

他说:“开放模型是一个很棒的构建基础,但它们作为封闭式的表现,而北欧和斯堪的纳维亚州的许多企业都没有资源来基于开放的模型来构建工具。”因此,筒仓和我们的模型可以介入以填补空白。

Silo AI CEO Peter Sarlin
在萨林的领导下,筒仓AI建造了北欧LLM家庭保护该地区的语言多样性。学分:筒仓AI

Lumi模型使用跨语性培训技术,其中模型在高资源和低资源语言之间共享其参数。

所有这些先前的工作都导致了OpenEurollm项目,Sarlin将其描述为有史以来最大的开源AI计划,包括欧洲几乎所有的AI开发人员,除了Mistral。

尽管正在进行许多努力并表现良好,但低资源语言的培训数据问题仍然是最大的挑战,尤其是在朝着更加细微的转变的过程中推理模型。翻译和跨语性培训是选择,但可以创造出对母语人士不自然的反应。正如萨林(Sarlin)所说的那样,我们不想要一个听起来像美国说美国芬兰语的模型。

法国Ortlllm

法国是人工智能发展中最活跃的国家之一,米斯特拉尔(Mistral)和拥抱的面孔领先。从社区的角度来看,该国也有法国Ortlllm。该项目(毫不奇怪)专注于法语模型,其中有几种不同的参数和数据集的模型,这些模型可帮助其他项目训练和改进支持法国的模型。数据集包括政治话语,会议录音,戏剧表演和休闲对话的混合。该项目还坚持排行榜法国模特在拥抱脸上,是少数几个(活跃的)欧洲语言模型基准页面之一。

欧洲人关心多语言AI吗?

欧洲充满了从事多语言模型的人和项目。但是消费者在乎吗?不幸的是,几乎不可能获得专有工具(例如Chatgpt或Mistral)的语言使用率。我创建了一个对LinkedIn进行民意调查询问人们是使用母语,英语还是两者的混合使用AI工具。结果是英语和语言混合物之间的50/50分配。这可能表明使用非英语语言使用AI工具的人数比您想象的要高。

通常,人们使用英语的AI工具进行工作和自己的语言进行个人任务。

德语和英语的人卡菲(Kaffee)说:``我主要用英语使用它们,因为我在工作中和伴侣在家里说英语。但是,对于个人任务,我使用德语。

Kaffee提到,Hugging Face正在研究一个即将发布的研究项目,该项目完全分析了平台上多语言模型的使用。她还轶事地指出,它们的用法正在上升。 

用户有一个概念,即模型现在更加多语言。以及通过大型模型的可访问性骆驼例如,作为多语言,我认为这对研究界对多语言模型以及想要用自己的语言使用它们的人数产生了重大影响。”

互联网总是应该是全球的,对每个人来说都是全球性的,但是50%的网站在英语表明它从未真正解决过。我们进入了一个新阶段,说明了我们如何访问信息和谁控制信息。也许这次,(AI)革命将是国际化的。

关于《使人工智能像欧洲一样多语言的竞赛》的评论


暂无评论

发表评论

摘要

英语在技术和在线内容中的主导地位引起了AI应用中多语言的挑战。欧盟有24种官方语言和更多的非正式语言,为增强语言支持的努力而努力,以减少语言。像Mistral,拥抱面孔和Eurollm这样的项目之类的公司旨在开发能够更好地了解欧洲语言的模型,尽管由于缺乏低资源语言的培训数据而面临困难。随着欧洲在人工智能发展中寻求独立性,对这些举措的有效性以及用户是否会通过英语版本采用它们的问题。