引入嵌套学习：用于持续学习的新 ML 范式

2025-11-07 17:42:02 英文原文

过去十年，机器学习 (ML) 取得了令人难以置信的进步，这主要是由强大的神经网络架构和用于训练它们的算法推动的。然而，尽管大型语言模型 (LLM) 取得了成功，但一些基本挑战仍然存在，特别是在持续学习方面，即模型随着时间的推移积极获取新知识和技能而不忘记旧知识和技能的能力。

当谈到持续学习和自我完善时，人脑是黄金标准。它通过神经可塑性来适应——神经可塑性是改变其结构以响应新经验、记忆和学习的非凡能力。如果没有这种能力，一个人就会被限制在直接的环境中（比如顺行性遗忘症）。我们在当前的法学硕士中看到了类似的限制：他们的知识仅限于输入窗口的直接上下文或他们在预训练期间学习的静态信息。

使用新数据不断更新模型参数的简单方法通常会导致 –灾难性遗忘‐ (CF)，学习新任务会牺牲旧任务的熟练程度。研究人员传统上通过架构调整或更好的优化规则来对抗 CF。然而，长期以来，我们将模型的架构（网络结构）和优化算法（训练规则）视为两个独立的东西，这阻碍了我们实现真正统一、高效的学习系统。

在我们的论文中， –嵌套学习：深度学习架构的幻想—，发表于神经IPS 2025，我们引入了嵌套学习，它弥补了这一差距。嵌套学习并不将单个机器学习模型视为一个连续的过程，而是将其视为一个由相互关联的、同时优化的多级学习问题组成的系统。我们认为模型的架构和用于训练模型的规则（即优化算法）本质上是相同的概念；它们只是不同的优化“级别”，每个级别都有自己的内部信息流（“上下文流”）和更新率。通过认识到这种固有结构，嵌套学习为设计更强大的人工智能提供了一个新的、以前看不见的维度，使我们能够构建具有更深计算深度的学习组件，这最终有助于解决灾难性遗忘等问题。

我们通过称为“Hope”的概念验证、自修改架构来测试和验证嵌套学习，该架构在语言建模方面实现了卓越的性能，并展示了比现有最先进模型更好的长上下文内存管理。

嵌套学习范式

嵌套学习揭示了复杂的机器学习模型实际上是一组相互嵌套或并行运行的连贯、互连的优化问题。每个内部问题都有其自身的问题上下文流– 它试图从中学习的自己独特的信息集。

这种观点意味着现有的深度学习方法本质上是通过压缩他们的内部背景流动。更重要的是，嵌套学习揭示了设计模型的新维度，使我们能够构建具有更深计算深度的学习组件。

为了说明这一范式，我们看一下以下概念：联想记忆– 根据一件事映射和回忆另一件事的能力（就像当你看到一张脸时回忆起一个名字）。

我们展示了训练过程本身，特别是反向传播过程，可以被建模为联想记忆。该模型学习将给定数据点映射到其局部误差值，该值可以衡量该数据点的“令人惊讶”或意外程度。
同样，根据之前的研究（例如，米拉斯），关键架构组件，例如Transformer 中的注意力机制，也可以形式化为简单的关联记忆模块，用于学习序列中标记之间的映射。

通过定义更新频率，即调整每个组件权重的频率，我们可以将这些相互关联的优化问题排序为“级别”。这个有序集构成了嵌套学习范式的核心。

将嵌套学习付诸实践

嵌套学习的视角立即为我们提供了改进现有算法和架构的原则性方法：

深度优化器

由于嵌套学习将优化器（例如，基于动量的优化器）视为关联记忆模块，因此它允许我们将关联记忆角度的原理应用于它们。我们观察到许多标准优化器依赖于简单的点积相似度（通过计算相应分量的乘积之和来衡量两个向量的相似程度）其更新不考虑不同数据样本之间的相互关系。通过将优化器的基本目标更改为更标准的损失指标，例如L2回归损失（回归任务中常见的损失函数，通过对预测值与真实值之间的差异的平方求和来量化误差），我们为动量等核心概念推导了新的公式，使它们对不完美数据更具弹性。

连续记忆系统

在标准 Transformer 中，序列模型充当短期记忆，保存即时上下文，而前馈神经网络充当长期记忆，存储训练前的知识。嵌套学习范式将这个概念扩展到我们所说的“连续记忆系统”（CMS），其中记忆被视为一系列模块，每个模块以不同的特定频率进行更新。这为持续学习创造了更丰富、更有效的记忆系统。

希望：具有连续记忆的自修改架构

作为概念验证，我们使用嵌套学习原理来设计 Hope，这是泰坦架构。泰坦架构是长期内存模块，它根据内存的令人惊讶的程度来确定内存的优先级。尽管它们具有强大的内存管理功能，但它们只有两级参数更新，从而实现一阶上下文学习。然而，Hope 是一种自我修改的循环架构，可以利用无限级别的上下文学习，并且还可以通过 CMS 块进行增强，以扩展到更大的上下文窗口。它本质上可以通过以下方式优化自己的内存：自我参照过程，创建一个具有无限循环学习级别的架构。

实验

我们进行了实验来评估深度优化器的有效性以及 Hope 在语言建模、长上下文推理、持续学习和知识整合任务方面的性能。完整结果可在我们的纸。

结果

我们的实验证实了嵌套学习、连续记忆系统的设计和自我修改泰坦的力量。

在各种常用和公共语言建模和常识推理任务中，与现代循环模型和标准变压器相比，Hope 架构表现出更低的复杂性和更高的准确性。

Hope 在长上下文的大海捞针 (NIAH) 下游任务中展示了卓越的内存管理，证明 CMS 提供了一种更高效、更有效的方法来处理扩展的信息序列。

结论

嵌套学习范式代表了我们对深度学习的理解向前迈进了一步。通过将架构和优化视为一个单一的、连贯的嵌套优化问题系统，我们解锁了设计的新维度，堆叠了多个级别。由此产生的模型（如 Hope 架构）表明，统一这些元素的原则性方法可以带来更具表现力、更强大、更高效的学习算法。

我们相信，嵌套学习范式为缩小当前法学硕士的有限、遗忘性质与人脑卓越的持续学习能力之间的差距提供了坚实的基础。我们很高兴研究社区能够探索这个新维度并帮助我们构建下一代自我改进的人工智能。

致谢

这项研究由 Ali Behrouz、Meisam Razaviyayn、Peilin Zhu 和 Vahab Mirrokni 进行。我们感谢 Praneeth Kacham 和 Corinna Cortes 审查了我们的工作并提出了宝贵的建议。我们还要感谢邓远和李泽曼。最后，我们感谢 Mark Simborg 和 Kimberly Schwede 在撰写这篇博文时提供的帮助。

关于《引入嵌套学习：用于持续学习的新 ML 范式》的评论

暂无评论

发表评论

摘要

研究人员引入了嵌套学习，这是一种将机器学习模型视为相互关联的优化问题系统的范式，以解决大型语言模型（LLM）中灾难性遗忘等挑战。该论文发表在 NeurIPS 2025 上，提出了 Hope，一种具有连续记忆系统模块的自修改架构，与现有模型相比，在语言建模和长上下文推理任务中展示了卓越的性能。这种方法弥合了当前法学硕士的局限性和人脑持续学习能力之间的差距，为设计更高效的人工智能系统提供了新的维度。