Apple 的这篇 AI 论文介绍了 AdEMAMix:一种利用双指数移动平均线来增强梯度效率并提高大规模模型训练性能的新颖优化方法 - MarkTechPost

2024-09-08 13:12:16 英文原文

机器学习取得了重大进步,特别是通过深度学习技术。这些进步在很大程度上依赖于优化算法来训练用于各种任务的大规模模型,包括语言处理和图像分类。该过程的核心在于最小化复杂的非凸损失函数的挑战。随机梯度下降 (SGD) 等优化算法

摘要

机器学习取得了重大进步,特别是通过深度学习技术。AdEMAMix 独有的双 EMA 系统可以更高效地训练大型模型,减少训练所需的代币总数,同时实现可比或更好的结果。对于更大的模型,例如 13 亿参数的语言模型,AdEMAMix 提供的结果与经过 150 万次迭代训练的 AdamW 模型相当,但标记数量减少了 51%。结合两个 EMA 来利用最近和较旧的梯度可以更好地解决 Adam 和 AdamW 等传统优化器的关键限制。这种双 EMA 方法可以让模型用更少的 token 实现更快的收敛,减少训练大型模型的计算负担;AdEMAMix 在 damW 试验中始终优于 A,展示了其提高语言建模和图像分类任务性能的潜力。如果您喜欢我们的工作,您一定会喜欢我们的时事通讯。不要忘记加入我们的 50k+ ML SubRedditAsif Razzaq 是 Marktechpost Media Inc. 的首席执行官。作为一位有远见的企业家和工程师,Asif 致力于利用人工智能的潜力促进社交好的。