英语轻松读发新版了,欢迎下载、更新

研究人员说,他们可能找到了一个梯子来爬上“数据墙”

2025-06-29 10:38:11 英文原文

作者:Jonathan Kemper

麻省理工学院的研究人员推出了一个名为SEAL的新框架,该框架使大型语言模型(LLMS)生成了自己的合成训练数据,并在没有外部帮助的情况下改善了自己。

密封分为两个阶段。首先,该模型学会使用奖励学习来创建有效的“自我编辑”。这些自我编辑写为自然语言指令,可以定义新的训练数据并设置优化参数。在第二阶段,系统应用这些说明并通过机器学习更新了自己的权重。

Flowchart: SEAL process for LM optimization through RL, self-edits (SE), testing, rewards, and iterative policy updates (θt+1).
该模型建议自己的更正(SE),更新其权重,并对任务进行评估。强化学习(RL)可帮助其在每个周期中生成更好的编辑。|图片:Zweiger等。

密封的关键部分是其休息^em算法,它的作用像是一个过滤器:它只能保持和加强自我编辑,从而真正改善了性能。该算法收集不同的编辑,测试哪些工作起作用,然后仅使用成功的变体来训练模型。SEAL还使用低级适配器(LORA),该技术可以快速,轻巧的更新而无需重新训练整个型号。

研究人员在两种情况下对测试进行了密封。首先,他们在文本理解任务上使用QWEN2.5-7B。该模型从文本产生了逻辑推断,然后以其自身的输出进行了训练。

广告

解码器通讯

您收件箱的最重要的AI新闻。

每周

免费

•随时取消

文本段落产生的合成含义是洛拉微调的培训数据。|图片:Zweiger等。

SEAL的精度为47%,超过了比较方法的33.5%。其自我生成的数据的质量甚至超过了Openai的数据GPT-4.1,尽管基础模型要小得多。

Left: QA self-edits before vs. after 3 RL iterations. Right: Comparison of average edit lengths for base, prompt, and RL.
强化学习会产生更详细的自我编辑,从而促进了性能。|图片:Zweiger等。

在第二次测试中,团队在推理任务上使用Llama 3.2-1B查看了几次提示。在这里,该模型从预设工具包中选择了不同的数据处理技术和培训参数。借助SEAL,该模型获得了72.5%的成功率,而没有任何以前的培训,只有20%。

“灾难性遗忘”仍然是一个挑战

尽管取得了良好的结果,但研究人员发现了几个局限性。主要问题是“灾难性遗忘”:当模型承担新任务时,它开始失去以前的绩效。培训也是资源密集的,因为对自我编辑的每次评估都需要30到45秒。

Heat map: Model performance after successive self-edit iterations on passages 0–7 shows decreasing accuracy on earlier tasks.
每个自我编辑都会导致早期学习内容的准确性下降。|图片:Zweiger等。

解决数据墙

麻省理工学院团队将密封视为克服所谓的一步“数据墙”。另外,研究人员还警告说“模型崩溃”的风险,在经过过多的训练时,模型质量的降低了低质量AI生成的数据。SEAL可以实现正在进行的学习和自动AI系统,以不断适应新的目标和信息。

如果模型可以通过吸收新材料(例如科学论文)并产生自己的解释和推论来教授自己,那么他们可以不断改善稀有或代表性不足的话题。这种自我驱动的学习循环可能有助于将语言模型推高当前限制。

密封的源代码可在github

关于《研究人员说,他们可能找到了一个梯子来爬上“数据墙”》的评论


暂无评论

发表评论

摘要

麻省理工学院的研究人员推出了一个名为SEAL的框架,该框架使大型语言模型(LLMS)能够生成合成训练数据并自主改善自己。密封分为两个阶段:首先,该模型学会通过奖励学习来创造有效的自我编辑;其次,它应用了这些编辑并通过机器学习更新其权重。其余的^em算法过滤出无效的自我编辑,而低级别适配器(LORA)则可以快速更新而无需重新训练整个模型。测试显示,与文本理解和推理任务的比较方法相比,密封的准确性更高,尽管仍然存在“灾难性遗忘”之类的挑战。密封被视为迈向克服数据墙并在AI系统中进行连续学习的一步。

相关讨论