- 来自美国顶级大学的研究人员警告延长预培训可能不利于表现
- 由于类似于蝴蝶效应
- 他们的预训练越多,他们对可能破坏最终结果的小变化变得越敏感
来自卡内基·梅隆(Carnegie Mellon),斯坦福大学(Stanford),哈佛大学(Harvard)和普林斯顿(Princeton)的研究人员正在挑战AI开发公认的核心信念之一 - 训练越多,绩效就越好。
如报道HPCWIRE,一篇新论文置于灾难性过度训练的概念,从而扩展预训练会在微调后损害模型的表现。
研究人员比较了两种版本的Olmo-1b模型,一种对2.3万亿代币进行了训练,另一个对3万亿个代币进行了训练。尽管进行了较大的训练,但据报道,训练较高的模型的表现较高,在山地管和ARC等基准测试方面的表现差3%。
达到拐点
该研究声称,这种表现下降与一种称为渐进敏感性的现象有关。
随着令牌计数的增加,模型变得更加脆弱。即使是微小的调整,例如微调过程中的调整或引入噪声,也可以逆转更早的收益。
作者通过将高斯噪声注入预训练的模型来证明这一点,并指出训练模型的时间越长,性能会更加急剧降解。
这种额外的训练开始降低表现的点称为拐点。
一旦到达,训练的好处就开始被内部不稳定的风险所胜过。研究发现,在较小的模型(如Olmo-1b)中,这种转化点通常发生在2.5万亿个令牌上。
作者在论文中警告您,您可以通过灾难性的训练可能是不可避免的……尤其ARXIV预印服务器。
尽管研究人员并没有建议结束预训练,但他们确实认为开发人员应该考虑预培训足够多少。正如本文总结的那样,我们的发现要求重新关注模型缩放,以考虑整个培训管道。”
对于AI开发人员追逐量表,该信息似乎很清楚:有时候,实际上是更多。