ATLAS:多语言模型的实用缩放法则
超过50%的AI模型用户说非英语语言,但公开的缩放法则绝大多数都集中在英语上。这种不平衡在公共研究中造成了严重的差距,使得负责为数十亿国际和多语言用户提供服务的模型构建者在为非英语语言或特定语言混合进行构建时,缺乏数据驱动的指导来制定有关效率、质量和成本的关键开发决策。
在☀ATLAS:用于多语言预训练、微调和解码多语言诅咒的自适应迁移缩放定律— 提交于ICLR 2026,我们的目标是解决这一差距。我们提出了迄今为止最大规模的公开多语言预训练研究,涵盖 10M–8B 参数模型的 774 次训练。它包括涵盖 400 多种语言的数据和 48 种语言的评估。这项研究的结果是,我们估计了 1,400 对语言之间的协同作用,并引入自适应转移缩放法则 (ATLAS) 来构建多语言模型,使从业者能够有效地平衡训练数据中的语言组合与模型大小。
ATLAS:适应多语言混合的单一缩放法则
ATLAS 是一种简单实用的方法,用于确定训练的最佳模型大小、数据量和语言混合。与专注于单语言环境的传统缩放法则不同,ATLAS 为更复杂的多语言环境提供这些建议。它通过利用来自多种不同语言的数据专门优化目标语言(例如加泰罗尼亚语)的性能。ATLAS 通过三个组成部分扩展了这些传统的比例定律原则:
- 用于确定哪些语言最适合一起训练的跨语言转移矩阵
- 随着支持的语言数量的增加,为有效扩展模型大小和数据提供指导的缩放法则
- 决定何时从头开始预训练模型与从多语言检查点进行微调的规则
ATLAS 通过对数百个多语言实验进行训练(使用MADLAD-400超过 750 个语料库涵盖 400 多种语言),并考虑三个不同的数据源:1)目标语言,2)根据实证分析的类似转移语言(例如,加泰罗尼亚语可能包括西班牙语、葡萄牙语和意大利语等拉丁语),以及 3)所有其他语言。这种新颖的方法使法律能够了解每种来源实际上对目标语言有多少帮助或阻碍,这是先前法律不支持的能力。
评价
我们使用 MADLAD-400 数据集来评估 ATLAS 在新模型大小、不同数量的训练数据上预测模型性能的效果,或新的语言混合。为此,我们使用词汇不敏感损失超过 750 个单语、双语和大规模多语言环境下的独立运行。我们的评估表明 ATLAS 的表现始终优于之前的工作。
对于六种语言——英语 (EN)、法语 (FR)、俄语 (RU)、中文 (ZH)、印地语 (HI) 和斯瓦希里语 (SW)——我们分析了 ATLAS 如何预测最佳模型大小(氮)和数据大小(D)应按比例缩放。当我们比较这些跨语言的最佳扩展轨迹时,我们做了两个观察。这些曲线看起来惊人地相似,但使用多语言词汇或完全多语言数据进行训练会带来计算效率税 - 特别是对于英语而言。当资源不足的语言耗尽数据时,它们会表现出向上的弯曲,并且模型很难从数据重复中学习。ATLAS 明确模拟了这些影响。
跨语言迁移图
接下来,我们大规模测量了语言间的协同作用和干扰,生成了一个矩阵来量化语言训练的量一个帮助(或伤害)语言乙。我们的结果显示了非常直观的结果:挪威语主要受到瑞典语和德语的帮助,马来语主要受到印度尼西亚语的帮助,阿拉伯语主要受到希伯来语的帮助。英语、法语和西班牙语是最有用的训练语言,这可能是由于这些语言在网络上找到的文本的内在质量、异质性和数量。
分析表明,正迁移的最大预测因素是共享脚本和/或语言系列(例如拉丁脚本),具有统计显着性,p < .001。英语对许多(但不是所有)语言有帮助;并且传输并不总是对称的(一个可以帮忙乙超过乙帮助一个)。这些测量将“预感”转化为数据驱动的语言组合选择。
用清晰的缩放规则解码“多语言诅咒”
“多语言诅咒”是一种现象,即由于模型容量有限,在多种语言上训练的模型在每种新语言上的性能都会下降。我们用缩放定律形式化这个问题,该定律不仅考虑模型大小(氮)和训练数据量(D),但是该数据中的语言数量(K)。将这一定律应用到许多实验中,我们发现,虽然添加语言会带来轻微的容量税,但存在高度的正迁移。这意味着如果我们想要训练一个模型来支持两倍的语言(2·K)那么我们应该将模型大小增加 1.18 倍,将总数据增加 1.66 倍。这相当于每种 2K 语言中 83% 的数据。尽管每种语言的数据较少,但学习所有语言所产生的积极协同效应意味着导致性能下降的容量限制被抵消。
何时预训练与微调多语言检查点
对于十种语言,我们比较了两种路径以获得最佳性能模型:(a) 从头开始对目标语言进行预训练,或 (b) 从强大的多语言中进行微调 —优尼麦克斯Ø 检查站。选项 (b) 可能会以最少的额外计算获得最佳性能,因为该模型在跨语言方面已经相当强大。然而,如果模型可以训练更长时间,那么选项 (a) 通常可以产生更好的长期结果。我们的目标是根据模型构建者必须花费的计算量找到两条训练曲线之间的交叉点。
我们的结果表明,微调会尽早获胜,但一旦你能负担得起足够的代币,预训练就会取胜。在我们的运行中,对于具有 2B 参数的模型,交叉通常发生在 ~144B 和 283B 标记之间(取决于语言)。接下来,我们将交叉点绘制为模型大小的函数。这给出了一个具体的、预算敏感的经验法则:如果您的代币和计算预算低于模型大小的交叉点,则从多语言检查点开始;否则,从头开始的预训练通常会提前完成。请注意,确切的阈值取决于基本模型和混合物。
自己尝试一下
通过超越以英语为中心的扩展,ATLAS 为全球模型开发人员提供了路线图。它可以通过帮助开发人员直接应用于英语以外的扩展语言模型:
- 计划训练新的多语言或非英语模型?使用图 1 或表 C.1纸了解基于词汇或训练选择的潜在缩放法则。
- 选择新的训练组合?查阅传输矩阵(图 2),选择对您的目标有经验帮助的源语言,尤其是那些共享相同脚本/系列的源语言。
- 用更多语言训练新模型?请参阅第 5 节,确定如何最有效地扩展模型大小和数据大小,以减轻多语言诅咒的影响。
- 计算受限?请参阅第 6 节来决定是否应该微调多语言模型或从头开始预训练。
我们希望这项工作能够实现新一代多语言模型,为数十亿非英语使用者提供服务。
致谢
我们感谢 Luke Zettlemoyer、Catherine Arnett 和 Stella Biderman 对本文进行的有益讨论。我们感谢张彪和泽维尔·加西亚对早期方向的技术讨论和反馈。