英语轻松读发新版了,欢迎下载、更新

“灾难性过度训练”可能会损害大型语言AI模型,这些模型是为了培训而受到更多数据培训的

2025-04-13 17:32:00 英文原文

作者:Wayne WilliamsSocial Links NavigationEditor


  • 来自美国顶级大学的研究人员警告延长预培训可能不利于表现
  • 由于类似于蝴蝶效应
  • 他们的预训练越多,他们对可能破坏最终结果的小变化变得越敏感

来自卡内基·梅隆(Carnegie Mellon),斯坦福大学(Stanford),哈佛大学(Harvard)和普林斯顿(Princeton)的研究人员正在挑战AI开发公认的核心信念之一 - 训练越多,绩效就越好。

如报道HPCWIRE,一篇新论文置于灾难性过度训练的概念,从而扩展预训练会在微调后损害模型的表现。

研究人员比较了两种版本的Olmo-1b模型,一种对2.3万亿代币进行了训练,另一个对3万亿个代币进行了训练。尽管进行了较大的训练,但据报道,训练较高的模型的表现较高,在山地管和ARC等基准测试方面的表现差3%。

达到拐点

该研究声称,这种表现下降与一种称为渐进敏感性的现象有关。

随着令牌计数的增加,模型变得更加脆弱。即使是微小的调整,例如微调过程中的调整或引入噪声,也可以逆转更早的收益。

作者通过将高斯噪声注入预训练的模型来证明这一点,并指出训练模型的时间越长,性能会更加急剧降解。

这种额外的训练开始降低表现的点称为拐点。

注册techradar Pro新闻通讯,以获取您的业务成功所需的所有新闻,意见,功能和指导!

一旦到达,训练的好处就开始被内部不稳定的风险所胜过。研究发现,在较小的模型(如Olmo-1b)中,这种转化点通常发生在2.5万亿个令牌上。

作者在论文中警告您,您可以通过灾难性的训练可能是不可避免的……尤其ARXIV预印服务器

尽管研究人员并没有建议结束预训练,但他们确实认为开发人员应该考虑预培训足够多少。正如本文总结的那样,我们的发现要求重新关注模型缩放,以考虑整个培训管道。”

对于AI开发人员追逐量表,该信息似乎很清楚:有时候,实际上是更多。

您可能还喜欢

关于《“灾难性过度训练”可能会损害大型语言AI模型,这些模型是为了培训而受到更多数据培训的》的评论


暂无评论

发表评论

摘要

卡内基·梅隆(Carnegie Mellon),斯坦福大学(Stanford),哈佛大学(Harvard)和普林斯顿(Princeton)的研究人员警告说,过度训练会因“灾难性过度训练”而损害AI模型的性能,其中模型对微小变化过于敏感。研究发现,在一定点之后 - 较小的模型超过2.5万亿代币的典型代币开始降级而不是增强性能。这个敏感性问题称为“渐进敏感性”,建议开发人员应重新考虑其模型所需的预训练量。