作者:Craig S. Smith
变压器架构,它是 OpenAI 的 ChatGPT 等生成式 AI 应用程序的核心。现在,谷歌推出了一种名为 Titans 的新架构,它是 Transformer 的直接演变,使我们离能够像人类一样思考的人工智能又近了一步。
Transformer 架构没有长期记忆,限制了其长期保留和使用信息的能力——信息是人类思维的重要组成部分。
《泰坦》引入了神经长期记忆、短期记忆和基于惊喜的学习系统——我们的大脑用来记住意外或关键事件的工具。
简单来说,Transformers 有一种“聚光灯”(称为注意力机制),它在任何给定时刻只查看句子或数据集中最相关的单词或数据点。《泰坦》仍然使用这种聚光灯,但增加了一个巨大的“图书馆”(长期记忆模块)来存储重要的历史信息。
这就像一个学生可以回顾本学期早些时候的笔记,而不是试图立即记住头脑中的所有内容。通过结合这两种方法——即刻关注注意力和深入回忆存储的知识——泰坦们可以在不丢失关键细节的情况下处理大量数据。
早期的基准测试表明,由于其智能“惊喜指标”对关键数据点进行优先级排序,Titans 在各种任务上都优于现有模型,从语言建模和时间序列预测到 DNA 建模。简而言之,泰坦可能标志着人工智能范式转变的开始,使机器智能更接近人类认知。
泰坦尼克号的影响
Google 的新设计不仅仅只是提高性能指标。通过密切反映人类认知如何优先考虑令人惊讶的事件以及如何在短期和长期范围内管理信息,泰坦为比以往更加直观和灵活的人工智能系统铺平了道路。
该架构保留广泛上下文的能力可能会彻底改变研究,人工智能助手可以跟踪多年的科学文献。他们可能会更擅长捕捉巨大数据集中的异常情况(例如医学扫描或金融交易),因为他们可以“记住”什么是正常的并突出显示什么是意外的。
在更广泛的层面上,通过推动人工智能更加类似于人类的处理,泰坦可能意味着人工智能比人类思考得更深入——挑战我们对人类独特性以及我们在人工智能增强世界中的角色的理解。
Titans 设计的核心是更加紧密地模仿人类大脑功能的共同努力。虽然《变形金刚》等之前的模型引入了注意力的概念,让人工智能能够专注于特定的相关信息,但《泰坦》在这方面更进一步。新的架构结合了人类认知过程的模拟,包括短期记忆、长期记忆,甚至“忘记”不太相关的信息的能力。也许最有趣的是,泰坦引入了一个令人惊讶的人类概念:优先处理令人惊讶或意外信息的能力。这模仿了人类更容易记住违反我们期望的事件的倾向,这一功能可能会导致更加细致和上下文感知的人工智能系统。
《泰坦》的关键技术创新是引入了神经长期记忆模块。该组件学习记住历史背景,并与已成为现代人工智能模型标准的注意力机制协同工作。其结果是一个系统在处理数据或生成响应时可以有效地利用即时上下文(类似于短期记忆)和更广泛的历史信息(长期记忆)。
这种双内存方法使 Titans 能够克服当前 Transformer 模型的主要限制之一:固定长度的“上下文窗口”,即模型一次可以处理的最大文本或信息量。虽然最先进的模型可以处理高达 200 万个“标记”、单个含义单元(例如单词、数字、标点符号等)的令人印象深刻的上下文窗口。泰坦可以有效地超越这一范围,保持高即使输入较大,也能保持准确度。这一突破可能会对需要分析非常大的文档或数据集的任务产生重大影响。
Titans 最迷人的方面之一是它的内存管理方法。该系统使用“惊喜”指标来确定哪些信息应存储在长期记忆中。违反模型期望的事件或数据点在内存存储中会得到优先处理。这不仅反映了人类的认知过程,还为应对人工智能系统中有限内存资源的管理挑战提供了一种新颖的解决方案。这种基于意外的内存管理由考虑内存大小比例和意外数据量的衰减机制补充。结果是一个更加动态和适应性更强的记忆系统,可以优先考虑重要信息,同时逐渐忘记不太相关的细节——就像人脑一样。
泰坦的早期测试在一系列任务中显示出了有希望的结果。在语言建模中,特别是在需要从大文本中提取特定信息的任务(通常称为“大海捞针”任务)中,Titans 优于现有模型。即使输入序列长度增加,它的性能仍然保持较高的水平,而其他模型的准确性往往会急剧下降。除了自然语言处理之外,Titans 在时间序列预测甚至 DNA 序列建模方面也表现出了令人印象深刻的能力。这种多功能性表明该架构可以在人工智能和机器学习的各个领域具有广泛的应用。
虽然泰坦的初步结果令人鼓舞,但值得注意的是,该技术仍处于早期阶段。与任何新的人工智能架构一样,在现实应用程序中扩展和实施泰坦可能会面临挑战。随着技术的成熟,有关计算要求、训练效率和潜在偏差的问题需要得到解决。此外,人工智能以类似于人类的方式保留和优先处理信息的能力可能会引发有关隐私、数据处理以及人工智能系统开发意外行为的可能性的新问题。
谷歌的泰坦架构为更复杂、上下文感知的人工智能应用程序开辟了新的可能性。随着这一领域研究的继续,我们可能正在见证人工智能新范式的早期阶段,它使我们更接近创建真正的智能系统,能够以更符合人类认知的方式理解世界并与世界互动。随着泰坦和类似架构的完善并应用于人工智能及其他领域的广泛挑战,未来几年无疑将带来令人兴奋的发展。