过去十年,机器学习 (ML) 取得了令人难以置信的进步,这主要是由强大的神经网络架构和用于训练它们的算法推动的。然而,尽管大型语言模型 (LLM) 取得了成功,但一些基本挑战仍然存在,特别是在持续学习方面,即模型随着时间的推移积极获取新知识和技能而不忘记旧知识和技能的能力。
当谈到持续学习和自我完善时,人脑是黄金标准。它通过神经可塑性来适应——神经可塑性是改变其结构以响应新经验、记忆和学习的非凡能力。如果没有这种能力,一个人就会被限制在直接的环境中(比如顺行性遗忘症)。我们在当前的法学硕士中看到了类似的限制:他们的知识仅限于输入窗口的直接上下文或他们在预训练期间学习的静态信息。
使用新数据不断更新模型参数的简单方法通常会导致 –灾难性遗忘‐ (CF),学习新任务会牺牲旧任务的熟练程度。研究人员传统上通过架构调整或更好的优化规则来对抗 CF。然而,长期以来,我们将模型的架构(网络结构)和优化算法(训练规则)视为两个独立的东西,这阻碍了我们实现真正统一、高效的学习系统。
在我们的论文中, –嵌套学习:深度学习架构的幻想—,发表于神经IPS 2025,我们引入了嵌套学习,它弥补了这一差距。嵌套学习并不将单个机器学习模型视为一个连续的过程,而是将其视为一个由相互关联的、同时优化的多级学习问题组成的系统。我们认为模型的架构和用于训练模型的规则(即优化算法)本质上是相同的概念;它们只是不同的优化“级别”,每个级别都有自己的内部信息流(“上下文流”)和更新率。通过认识到这种固有结构,嵌套学习为设计更强大的人工智能提供了一个新的、以前看不见的维度,使我们能够构建具有更深计算深度的学习组件,这最终有助于解决灾难性遗忘等问题。
我们通过称为“Hope”的概念验证、自修改架构来测试和验证嵌套学习,该架构在语言建模方面实现了卓越的性能,并展示了比现有最先进模型更好的长上下文内存管理。
嵌套学习揭示了复杂的机器学习模型实际上是一组相互嵌套或并行运行的连贯、互连的优化问题。每个内部问题都有其自身的问题上下文流– 它试图从中学习的自己独特的信息集。
这种观点意味着现有的深度学习方法本质上是通过压缩他们的内部背景流动。更重要的是,嵌套学习揭示了设计模型的新维度,使我们能够构建具有更深计算深度的学习组件。
为了说明这一范式,我们看一下以下概念:联想记忆– 根据一件事映射和回忆另一件事的能力(就像当你看到一张脸时回忆起一个名字)。
通过定义更新频率,即调整每个组件权重的频率,我们可以将这些相互关联的优化问题排序为“级别”。这个有序集构成了嵌套学习范式的核心。
嵌套学习的视角立即为我们提供了改进现有算法和架构的原则性方法:
在标准 Transformer 中,序列模型充当短期记忆,保存即时上下文,而前馈神经网络充当长期记忆,存储训练前的知识。嵌套学习范式将这个概念扩展到我们所说的“连续记忆系统”(CMS),其中记忆被视为一系列模块,每个模块以不同的特定频率进行更新。这为持续学习创造了更丰富、更有效的记忆系统。
我们的实验证实了嵌套学习、连续记忆系统的设计和自我修改泰坦的力量。
在各种常用和公共语言建模和常识推理任务中,与现代循环模型和标准变压器相比,Hope 架构表现出更低的复杂性和更高的准确性。
Hope 在长上下文的大海捞针 (NIAH) 下游任务中展示了卓越的内存管理,证明 CMS 提供了一种更高效、更有效的方法来处理扩展的信息序列。
嵌套学习范式代表了我们对深度学习的理解向前迈进了一步。通过将架构和优化视为一个单一的、连贯的嵌套优化问题系统,我们解锁了设计的新维度,堆叠了多个级别。由此产生的模型(如 Hope 架构)表明,统一这些元素的原则性方法可以带来更具表现力、更强大、更高效的学习算法。
我们相信,嵌套学习范式为缩小当前法学硕士的有限、遗忘性质与人脑卓越的持续学习能力之间的差距提供了坚实的基础。我们很高兴研究社区能够探索这个新维度并帮助我们构建下一代自我改进的人工智能。
这项研究由 Ali Behrouz、Meisam Razaviyayn、Peilin Zhu 和 Vahab Mirrokni 进行。我们感谢 Praneeth Kacham 和 Corinna Cortes 审查了我们的工作并提出了宝贵的建议。我们还要感谢邓远和李泽曼。最后,我们感谢 Mark Simborg 和 Kimberly Schwede 在撰写这篇博文时提供的帮助。