彻底改变了序列建模随着它的介绍关注,一种模型回顾早期输入以优先考虑相关输入数据的机制。然而,计算成本随着序列长度的增加而急剧增加,这限制了将基于 Transformer 的模型扩展到极长上下文的能力,例如全文档理解或基因组分析所需的模型。研究界探索了各种解决方案,例如高效线性
循环神经网络(RNN)和状态空间模型(SSM)喜欢曼巴-2。这些模型通过将上下文压缩为固定大小来提供快速、线性的缩放。然而,这种固定大小的压缩无法充分捕获很长序列中的丰富信息。
在两篇新论文中,泰坦和米拉斯,我们介绍了一种将 RNN 的速度与 Transformer 的准确性相结合的架构和理论蓝图。Titans 是具体的架构(工具),MIRAS 是概括这些方法的理论框架(蓝图)。它们共同推进了测试时记忆的概念,即人工智能模型在模型运行时通过整合更强大的“惊喜”指标(即意外信息)来维持长期记忆的能力,而无需专门的离线再训练。
正如 Titans 所展示的那样,MIRAS 框架引入了向实时适应的有意义的转变。该架构不是将信息压缩为静态,而是随着数据流的输入主动学习和更新其自身参数。这一关键机制使模型能够立即将新的具体细节纳入其核心知识中。
一个有效的学习系统需要不同但相互关联的记忆模块,反映人脑将短期记忆和长期记忆分开。
虽然注意力机制擅长精确的短期记忆,但泰坦引入了一种新颖的神经网络长期记忆模块,与传统 RNN 中的固定大小向量或矩阵存储器不同,它充当深度神经网络(具体来说,多层感知器)。该内存模块提供了显着更高的表达能力,使模型能够总结大量信息而不会丢失重要的上下文。该模型不仅仅是做笔记,而是做笔记。它是理解和综合整个故事。
至关重要的是,Titans 不仅仅被动地存储数据。它主动学习如何识别并保留在整个输入中连接标记的重要关系和概念主题。这种能力的一个关键方面就是我们所说的“惊喜指标”。在人类心理学中,我们知道我们很快很容易忘记日常的、预期的事件,但会记住打破模式的事情——意外的、令人惊讶的或高度情绪化的事件。
在《泰坦》的背景下,“惊喜指标”是指检测到当前记忆内容与新输入告诉它的内容之间存在巨大差异的模型。
该模型使用这个内部误差信号(梯度)作为数学上的等价物,“这是意外且重要的!”这使得泰坦架构能够有选择地仅使用最新颖和打破上下文的信息来更新其长期记忆,从而保持整个过程的快速和高效。
泰坦通过合并两个关键要素来完善这一机制:
序列建模的每一项重大突破——从现代 Transformer 到新的、快如闪电的线性 RNN——本质上都是相同的:高度复杂的模型联想记忆模块。
因此,MIRAS 的独特性和实用性在于它看待 AI 建模的方式。它看到的不是不同的架构,而是解决同一问题的不同方法:有效地将新信息与旧记忆结合起来,而不会让基本概念被遗忘。MIRAS 通过四个关键设计选择定义了序列模型:
内存架构
几乎所有成功的现有序列模型都依赖于均方误差(均方误差)或点积相似度因为他们的偏见和保留。这种依赖会使模型对异常值敏感并限制其表达能力。
MIRAS 通过提供一个生成框架来探索更丰富的设计空间(根据优化和统计文献提供信息),从而超越了这一限制。这允许创建新颖的架构非欧几里得目标和正则化。
使用 MIRAS,我们创建了三个特定的无注意力模型:
消融研究清楚地表明,内存架构的深度至关重要。当比较相同大小但不同深度的长期记忆模块时,具有较深记忆的模块在语言建模中始终实现较低的困惑度。此外,它们表现出更好的缩放特性,随着序列长度显着增加而保持性能。
在语言建模和常识推理任务中,Titans 架构的性能优于最先进的线性循环模型(例如 Mamba-2 和 Gated DeltaNet)以及大小相当的 Transformer++ 基线。与这些基线相比,新颖的 MIRAS 变体(MONETA、YAAD、MEMORA)也实现了更高的性能,验证了探索稳健的非 MSE 优化机制的好处。重要的是,这些模型保持高效、可并行的训练和快速的线性推理速度。
这些新架构最显着的优势是它们能够处理极长的上下文。这一点在BABI长基准,一项需要对分布在极长文档中的事实进行推理的任务。在这种具有挑战性的环境中,Titans 的性能优于所有基线,包括像 GPT-4 这样的超大型模型,尽管参数少得多。Titans 进一步展示了有效扩展到大于 200 万个令牌的上下文窗口大小的能力。
Titans 和 MIRAS 框架的引入标志着序列建模的重大进步。通过使用深度神经网络作为记忆模块,在数据输入时学习记忆,这些方法克服了固定大小的循环状态的局限性。此外,MIRAS 提供了强大的理论统一,揭示了在线优化、联想内存和架构设计之间的联系。通过超越标准欧几里得范式,这项研究为新一代序列模型打开了大门,该模型将 RNN 的效率与长上下文 AI 时代所需的表达能力结合起来。