加入企业领导人信任的活动近二十年。VB变换汇集了建立真正的企业AI战略的人们。 了解更多
研究人员在麻省理工学院已经开发了一个称为的框架自我适应语言模型(密封)使大型语言模型(LLMS)能够通过更新自己的内部参数不断学习和适应。Seal教授LLM生成自己的培训数据并更新说明,从而使其能够永久吸收新知识并学习新任务。
该框架对于企业应用程序可能很有用,特别是对于在动态环境中运行的AI代理,它们必须不断处理新信息并适应其行为。
适应LLM的挑战
尽管大型语言模型表现出了非凡的能力,使它们适应特定的任务,整合新信息或掌握新颖的推理技能仍然是一个重大障碍。
当前,面对一项新任务时,LLMS通常通过诸如此类的方法从数据中学习填充或封闭式学习。但是,提供的数据并不总是以最佳格式供模型有效学习。现有的方法不允许该模型制定自己的策略,以最佳地转换和从新信息中学习。
“许多企业用例不仅要求事实召回,还需要更深入的持续适应。例如,编码助手可能需要内部化公司的特定软件框架,或者面向客户的模型可能需要学习用户的独特行为或随着时间的流逝。
在这种情况下,暂时的检索不足,并且需要融入模型的权重,以便它影响所有未来的反应。”
创建自我适应语言模型
麻省理工学院研究人员在论文中指出,作为迈向语言模型的可扩展和高效适应语言模型的一步,我们提议为LLMS配备LLM,以便能够生成自己的培训数据和使用此类数据的Finetuning指令。”

研究人员的解决方案是密封,是自我适应语言模型的缩写。它使用增强学习(RL)算法来训练LLM来生成“自我编辑”的自然语言指令,以指定模型应如何更新自己的权重。这些自我编辑可以重组新信息,创建合成训练示例,甚至可以定义学习过程本身的技术参数。
Seal在直觉上教授了一个模型如何创建自己的个性化学习指南。该模型不仅要读取新文档(原始数据),还学会将信息重写并重新格式化为一种样式,它可以更容易地吸收和内在化。这个过程汇集了AI研究的几个关键领域,包括合成数据生成,强化学习和测试时间培训(TTT)。
该框架在两层系统上运行。在内部循环中,模型使用自我编辑来对其权重进行小的临时更新。在外循环中,系统评估该更新是否改善了目标任务上的模型性能。如果这样做,该模型将获得积极的奖励,从而增强了其将来产生这种有效自我编辑的能力。随着时间的流逝,LLM成为教学本身的专家。
在他们的研究中,研究人员为整个密封框架使用了一个模型。但是,他们还指出,这个过程可以将其分解为教师学生的模型。可以培训专业的教师模型,以为单独的学生模型生成有效的自我编辑,然后将进行更新。这种方法可以允许在企业设置中更具专业化和有效的适应管道。
密封行动
研究人员在两个关键领域中测试了密封:知识融合(永久整合新事实的能力)和几乎没有学习(从少数示例中概括的能力)。

对于知识融合,目标是查看该模型是否可以回答有关文本段落的问题,而无需在询问期间访问段落。原始文本上的Finetuning Llama-3.2-1b仅提供了比基本模型的边际改进。
但是,当密封模型通过从一段段落中产生多个含义并接受了此合成数据的培训时,其准确性跃升至47%。值得一提GPT-4.1,建议该模型学会为自己创造出色的培训材料。

对于几次学习,研究人员在示例中测试了密封抽象推理语料库(弧),模型必须解决视觉难题。在自我编辑阶段,该模型必须生成整个适应策略,包括使用哪些数据增强和使用的工具以及要应用的学习率。”
SEAL取得了72.5%的成功率,在没有RL培训的情况下达到的20%的率以及标准的上下文学习率为0%。

对企业的影响
一些专家指出,在未来几年中,高质量,人类生成的培训数据的供应可能会耗尽。正如研究人员所说,进展可能很快取决于模型产生自己的高顽固训练信号的能力。他们补充说,``自然的下一步是元训练专用密封构成合成数据生成器模型,该模型可产生新的预读验证库,使未来的模型可以扩展并实现更大的数据效率,而无需依赖其他人类文本。”
例如,研究人员建议法学硕士可以摄入诸如学术论文或财务报告之类的复杂文件,并自主产生数千种解释和影响以加深其理解。”
研究人员解释说,即使没有其他外部监督,这种自我表达和自我进行的迭代循环也可以使模型能够继续改善稀有或代表性不足的话题。”
这种功能特别有希望建造人工智能代理。代理系统在与环境互动时必须逐步获取和保留知识。密封为此提供了一种机制。互动后,代理可以合成一个自编辑以触发权重更新,从而可以将其内部化。这使代理商能够随着时间的流逝而发展,根据经验改善其绩效,并减少对静态编程或重复指导的依赖。
研究人员写道:``密封表明大型语言模型不必在训练后保持静态。”`通过学习生成自己的合成自我编辑数据并通过轻量化重量更新应用它们,他们可以自主纳入新知识并适应新任务。”
密封的局限性
也就是说,密封不是通用的解决方案。例如,它可能会遭受灾难性的遗忘,在这种情况下,不断的再训练周期可以导致模型学习其早期知识。
帕里说,在目前的实施中,我们鼓励一种混合方法。”企业应该对哪些知识足够重要来永久整合。”
事实和不断发展的数据可以通过抹布保留在外部记忆中,而持久的,行为塑造知识更适合通过密封的重量级别更新。
他说,这种混合记忆策略可确保正确的信息持续存在,而不会压倒模型或引入不必要的遗忘。”
还值得注意的是,密封需要非平凡的时间来调整自我编辑示例并训练模型。这使得在大多数生产环境中不可行,实时编辑不可行。
帕里说:`我们设想了一个更实用的部署模型,该系统在一段时间内收集数据,几个小时或一天,然后在预定的更新间隔内执行有针对性的自我编辑。”``这种方法使企业能够控制适应成本,同时仍然受益于密封的新知识的能力。”