泰坦+MIRAS:帮助AI拥有长期记忆

2025-12-04 19:29:26 英文原文

彻底改变了序列建模随着它的介绍关注,一种模型回顾早期输入以优先考虑相关输入数据的机制。然而,计算成本随着序列长度的增加而急剧增加,这限制了将基于 Transformer 的模型扩展到极长上下文的能力,例如全文档理解或基因组分析所需的模型。研究界探索了各种解决方案,例如高效线性

循环神经网络(RNN)和状态空间模型(SSM)喜欢曼巴-2这些模型通过将上下文压缩为固定大小来提供快速、线性的缩放。然而,这种固定大小的压缩无法充分捕获很长序列中的丰富信息。

在两篇新论文中,泰坦米拉斯,我们介绍了一种将 RNN 的速度与 Transformer 的准确性相结合的架构和理论蓝图。Titans 是具体的架构(工具),MIRAS 是概括这些方法的理论框架(蓝图)。它们共同推进了测试时记忆的概念,即人工智能模型在模型运行时通过整合更强大的“惊喜”指标(即意外信息)来维持长期记忆的能力,而无需专门的离线再训练。

正如 Titans 所展示的那样,MIRAS 框架引入了向实时适应的有意义的转变。该架构不是将信息压缩为静态,而是随着数据流的输入主动学习和更新其自身参数。这一关键机制使模型能够立即将新的具体细节纳入其核心知识中。

泰坦:即时学习新环境

一个有效的学习系统需要不同但相互关联的记忆模块,反映人脑将短期记忆和长期记忆分开

虽然注意力机制擅长精确的短期记忆,但泰坦引入了一种新颖的神经网络长期记忆模块,与传统 RNN 中的固定大小向量或矩阵存储器不同,它充当深度神经网络(具体来说,多层感知器)。该内存模块提供了显着更高的表达能力,使模型能够总结大量信息而不会丢失重要的上下文。该模型不仅仅是做笔记,而是做笔记。它是理解和综合整个故事。

至关重要的是,Titans 不仅仅被动地存储数据。它主动学习如何识别并保留在整个输入中连接标记的重要关系和概念主题。这种能力的一个关键方面就是我们所说的“惊喜指标”。在人类心理学中,我们知道我们很快很容易忘记日常的、预期的事件,但会记住打破模式的事情——意外的、令人惊讶的或高度情绪化的事件。

在《泰坦》的背景下,“惊喜指标”是指检测到当前记忆内容与新输入告诉它的内容之间存在巨大差异的模型。

  • 低惊喜:如果新单词是“猫”并且模型的记忆状态已经预期是动物单词,则梯度(惊喜)较低。在永久的长期状态下,它可以安全地跳过记忆“猫”这个词。
  • 高惊喜:如果模型的记忆状态正在总结一份严肃的财务报告,而新的输入是一张香蕉皮的图片(意外事件),那么梯度(意外)将会非常高。这表明新输入很重要或异常,必须优先考虑将其永久存储在长期记忆模块中。

该模型使用这个内部误差信号(梯度)作为数学上的等价物,“这是意外且重要的!”这使得泰坦架构能够有选择地仅使用最新颖和打破上下文的信息来更新其长期记忆,从而保持整个过程的快速和高效。

泰坦通过合并两个关键要素来完善这一机制:

  1. 势头:该模型考虑“瞬时惊喜”(当前输入)和“过去惊喜”(最近的上下文流)。这确保了相关的后续信息也被捕获,即使这些标记单独而言并不令人惊讶。
  2. 遗忘(重量衰减):为了在处理极长序列时管理内存的有限容量,泰坦采用了自适应权重衰减机制。这充当遗忘门,允许模型丢弃不再需要的信息。

MIRAS:序列建模的统一视图

序列建模的每一项重大突破——从现代 Transformer 到新的、快如闪电的线性 RNN——本质上都是相同的:高度复杂的模型联想记忆模块。

因此,MIRAS 的独特性和实用性在于它看待 AI 建模的方式。它看到的不是不同的架构,而是解决同一问题的不同方法:有效地将新信息与旧记忆结合起来,而不会让基本概念被遗忘。MIRAS 通过四个关键设计选择定义了序列模型:

内存架构

  • :存储信息的结构(例如,向量、矩阵或深度多层感知器,如泰坦中的)。注意偏差
  • :模型优化的内部学习目标决定了它的优先级。滞留门
  • :内存调节器。MIRAS 将“遗忘机制”重新解释为特定形式正则化平衡新的学习和保留过去的知识。
  • 内存算法:用于更新内存的优化算法。

超越均方误差范式

几乎所有成功的现有序列模型都依赖于均方误差(均方误差)或点积相似度因为他们的偏见和保留。这种依赖会使模型对异常值敏感并限制其表达能力。

MIRAS 通过提供一个生成框架来探索更丰富的设计空间(根据优化和统计文献提供信息),从而超越了这一限制。这允许创建新颖的架构非欧几里得目标和正则化。

使用 MIRAS,我们创建了三个特定的无注意力模型:

  • 亚德:我们将此 MIRAS 变体设计为对重大错误或“异常值”(例如大型文档中的单个拼写错误)不太敏感。它使用更温和的数学惩罚(胡贝尔损失)的错误,所以它不会对一次性问题反应过度。当输入数据混乱或不一致时,这使得模型更加稳健。
  • 莫内塔:该模型探索了更复杂和更严格的数学惩罚的使用(称为普遍规范)。它研究了对模型关注的内容和遗忘的内容使用这些更严格的规则是否可以导致整体上更强大、更稳定的长期记忆系统。
  • 备忘录:该模型侧重于通过强制其内存像严格的概率图一样来实现最佳的内存稳定性。通过使用这个约束,可以确保每次更新内存状态时,变化都得到控制和平衡。这保证了整合新信息的干净、稳定的过程。几乎所有成功的现有序列模型都依赖于均方误差(均方误差)或点积相似度因为他们的偏见和保留。这种依赖会使模型对异常值敏感并限制其表达能力。

实验与结果

我们将 Titans 以及 MIRAS 变体(YAAD、MONETA、MEMORA)与领先架构进行了严格比较,包括变压器++,曼巴-2, 和门控DeltaNet。我们通过在基因组建模 (DNA) 和时间序列预测方面测试 Titans 进一步验证了多功能性,证明该架构可以有效地推广到文本之外。

跨标准语言建模数据集(C4,维基百科t)和零样本推理任务海拉斯瓦格,PIQA),我们的模型始终表现出更高的准确性和困惑(衡量法学硕士在查看一段文字时的惊讶程度)。

深层记忆的力量

消融研究清楚地表明,内存架构的深度至关重要。当比较相同大小但不同深度的长期记忆模块时,具有较深记忆的模块在语言建模中始终实现较低的困惑度。此外,它们表现出更好的缩放特性,随着序列长度显着增加而保持性能。

语言建模和效率

在语言建模和常识推理任务中,Titans 架构的性能优于最先进的线性循环模型(例如 Mamba-2 和 Gated DeltaNet)以及大小相当的 Transformer++ 基线。与这些基线相比,新颖的 MIRAS 变体(MONETA、YAAD、MEMORA)也实现了更高的性能,验证了探索稳健的非 MSE 优化机制的好处。重要的是,这些模型保持高效、可并行的训练和快速的线性推理速度。

极端的长上下文回忆

这些新架构最显着的优势是它们能够处理极长的上下文。这一点在BABI长基准,一项需要对分布在极长文档中的事实进行推理的任务。在这种具有挑战性的环境中,Titans 的性能优于所有基线,包括像 GPT-4 这样的超大型模型,尽管参数少得多。Titans 进一步展示了有效扩展到大于 200 万个令牌的上下文窗口大小的能力。

结论

Titans 和 MIRAS 框架的引入标志着序列建模的重大进步。通过使用深度神经网络作为记忆模块,在数据输入时学习记忆,这些方法克服了固定大小的循环状态的局限性。此外,MIRAS 提供了强大的理论统一,揭示了在线优化、联想内存和架构设计之间的联系。通过超越标准欧几里得范式,这项研究为新一代序列模型打开了大门,该模型将 RNN 的效率与长上下文 AI 时代所需的表达能力结合起来。

关于《泰坦+MIRAS:帮助AI拥有长期记忆》的评论


暂无评论

发表评论

摘要

由于高计算成本,Transformer 架构在处理极长序列方面面临着限制。为了解决这个问题,研究人员引入了 Titans 和 MIRAS:一种将 RNN 的速度与 Transformer 的准确性相结合的架构和理论框架。Titans 采用了一种新颖的神经长期记忆模块,可以随着新数据的到来而动态更新,从而增强大量信息的实时适应和高效处理。MIRAS 框架通过关联记忆镜头重新解释现有模型,并提出非欧几里得优化机制来提高处理异常值的鲁棒性和性能,从而提供了序列建模的统一视图。实验表明,Titans 的性能优于当前最先进的模型,特别是在需要长上下文回忆的任务中,同时保持高效的训练和推理速度。的变压器架构