英语轻松读发新版了,欢迎下载、更新

人工智能模型能否有效扩展知识存储?Meta 研究人员大规模提升内存层功能

2024-12-21 06:48:52 英文原文

作者:Sana Hassan

随着研究人员探索创新方法来提高计算效率,同时保持或提高模型性能,神经网络架构领域取得了快速发展。传统的密集网络严重依赖计算成本高昂的矩阵运算来编码和存储信息。当将这些模型扩展到需要大量知识存储和检索的实际应用程序时,这种依赖带来了挑战。最近的研究重点是完善现有架构以平衡计算和内存需求,为更具可扩展性和节能的人工智能系统提供途径。

现有模型的局限性在于它们在处理简单的事实关联(例如实体或数字事实之间的关系)方面效率低下。密集变压器模型虽然可以有效地表示复杂模式,但随着参数数量的增加,需要增加计算资源。当处理需要事实准确性的任务时,例如回答问题,回忆特定信息的能力至关重要,这种低效率就会出现问题。挑战在于找到使模型能够存储和检索知识而不显着增加计算需求或内存使用的方法。随着参数大小和数据需求的增加,对能够有效扩展的解决方案的需求变得越来越迫切。

目前的技术,例如专家混合 (MOE) 模型,已经被开发来解决其中一些挑战。MOE 通过仅激活给定输入的参数子集来引入稀疏性,与完全密集的模型相比,减少了计算开销。然而,MOE 架构通常无法满足需要精确事实回忆和一般知识表示的任务。此外,这些方法通常需要复杂的设计,并且大规模实施具有挑战性。尽管如此,MOE 模型一直在努力充分满足对高效、可扩展架构不断增长的需求,这促使研究人员探索替代方法。

为了提高 AI 架构中内存层的实用性,Meta 的 FAIR 研究人员专注于扩展和改进其实现。内存层最初被提出作为键值查找机制,已显示出有效存储和检索信息的潜力。Meta 研究人员将这些存储层集成到变压器架构中,取代了各种配置中的前馈网络。这一成果代表着内存容量提高了两个数量级,内存参数扩展至 1280 亿个。通过修改和优化内存层,该团队证明了他们在各种基准测试中优于密集模型和 MOE 模型的能力,特别是那些需要事实准确性和知识检索的基准模型。

改进的内存层设计结合了可训练的键值嵌入,并利用稀疏激活模式来提高效率。产品密钥查找是一种将密钥分割成更小的子集以进行高效搜索的技术,可以在计算量不呈指数增长的情况下扩展内存层。跨 GPU 的并行内存操作进一步简化了性能,使系统能够处理数百万个键,同时保持可管理的计算负载。在早期的实现中,定制 CUDA 内核优化了内存操作,实现了接近 3 TB/s 的 GPU 带宽,而之前的带宽还不到 400 GB/s。

例如,在评估中,具有存储层的 13 亿参数模型达到了与密集模型相当的精度,而计算要求是密集模型的两倍。在 NaturalQuestions 和 TriviaQA 等实际问答任务中,记忆增强模型的准确性提高了 100% 以上。扩展实验表明,具有 6400 万个键和 1280 亿个内存参数的内存模型接近 Llama2 7B 模型的性能,但这需要更多的计算资源。此外,记忆增强模型表现出更快的学习速度,用更少的训练令牌达到高精度。

该研究的几个要点包括:

  • 内存层增强了事实问答基准的性能,以双倍的计算资源超越了密集模型。
  • 该方法可跨参数大小无缝扩展,达到 1280 亿个内存参数,并展示了一致的准确性改进。
  • 定制 CUDA 内核最大限度地提高了 GPU 带宽,确保内存操作的高效实施。
  • 记忆增强模型在训练的早期就取得了优异的结果,展示了它们使用更少的标记有效学习的能力。
  • 共享内存池允许密集层和内存层的战略混合,从而优化计算和内存效率。

总之,Meta FAIR 的研究提高了 AI 模型中内存层的可扩展性和实用性。该研究强调了内存层通过改进实现并展示其在各种任务中的效率来解决神经网络架构中的关键挑战的潜力。这些发现凸显了一个有前途的方向,提供了平衡计算需求与增强的知识存储能力的工具。


查看。这项研究的所有功劳都归功于该项目的研究人员。另外,不要忘记关注我们 叽叽喳喳并加入我们的 电报频道和 领英 集团奥普。不要忘记加入我们的 60k+ ML SubReddit

ðě 趋势:LG AI Research 发布 EXAONE 3.5:三个开源双语前沿 AI 级模型,提供无与伦比的指令跟踪和长上下文理解,以实现卓越生成 AI 的全球领导地位……。

Sana Hassan 是 Marktechpost 的咨询实习生,也是印度理工学院马德拉斯分校的双学位学生,她热衷于应用技术和人工智能来应对现实世界的挑战。凭借对解决实际问题的浓厚兴趣,他为人工智能与现实生活解决方案的交叉带来了全新的视角。

关于《人工智能模型能否有效扩展知识存储?Meta 研究人员大规模提升内存层功能》的评论


暂无评论

发表评论

摘要

神经网络架构领域取得了一些进步,旨在提高计算效率,同时保持或提高模型性能。传统的密集网络计算成本高昂,对于需要大量知识存储和检索的现实应用程序来说,可扩展性具有挑战性。最近的研究重点是改进现有架构以平衡计算和内存需求,引入诸如仅激活参数子集的专家混合 (MOE) 模型等技术。然而,MOE 面临着精确事实回忆的问题,并且大规模实施起来很复杂。Meta FAIR 研究人员将可扩展的内存层集成到 Transformer 架构中,展示了事实准确性和知识检索基准的显着改进。内存增强模型表现出更高的性能效率、更快的学习速率以及在没有过多计算需求的情况下处理大参数的能力。