“灾难性过度训练”可能会损害大型语言AI模型，这些模型是为了培训而受到更多数据培训的

来自卡内基·梅隆（Carnegie Mellon），斯坦福大学（Stanford），哈佛大学（Harvard）和普林斯顿（Princeton）的研究人员正在挑战AI开发公认的核心信念之一 - 训练越多，绩效就越好。

如报道HPCWIRE，一篇新论文置于灾难性过度训练的概念，从而扩展预训练会在微调后损害模型的表现。

研究人员比较了两种版本的Olmo-1b模型，一种对2.3万亿代币进行了训练，另一个对3万亿个代币进行了训练。尽管进行了较大的训练，但据报道，训练较高的模型的表现较高，在山地管和ARC等基准测试方面的表现差3％。

达到拐点

该研究声称，这种表现下降与一种称为渐进敏感性的现象有关。

随着令牌计数的增加，模型变得更加脆弱。即使是微小的调整，例如微调过程中的调整或引入噪声，也可以逆转更早的收益。

作者通过将高斯噪声注入预训练的模型来证明这一点，并指出训练模型的时间越长，性能会更加急剧降解。

这种额外的训练开始降低表现的点称为拐点。

注册techradar Pro新闻通讯，以获取您的业务成功所需的所有新闻，意见，功能和指导！

一旦到达，训练的好处就开始被内部不稳定的风险所胜过。研究发现，在较小的模型（如Olmo-1b）中，这种转化点通常发生在2.5万亿个令牌上。

作者在论文中警告您，您可以通过灾难性的训练可能是不可避免的……尤其ARXIV预印服务器。

尽管研究人员并没有建议结束预训练，但他们确实认为开发人员应该考虑预培训足够多少。正如本文总结的那样，我们的发现要求重新关注模型缩放，以考虑整个培训管道。”

对于AI开发人员追逐量表，该信息似乎很清楚：有时候，实际上是更多。