作者:Sana Hassan
随着研究人员探索创新方法来提高计算效率,同时保持或提高模型性能,神经网络架构领域取得了快速发展。传统的密集网络严重依赖计算成本高昂的矩阵运算来编码和存储信息。当将这些模型扩展到需要大量知识存储和检索的实际应用程序时,这种依赖带来了挑战。最近的研究重点是完善现有架构以平衡计算和内存需求,为更具可扩展性和节能的人工智能系统提供途径。
现有模型的局限性在于它们在处理简单的事实关联(例如实体或数字事实之间的关系)方面效率低下。密集变压器模型虽然可以有效地表示复杂模式,但随着参数数量的增加,需要增加计算资源。当处理需要事实准确性的任务时,例如回答问题,回忆特定信息的能力至关重要,这种低效率就会出现问题。挑战在于找到使模型能够存储和检索知识而不显着增加计算需求或内存使用的方法。随着参数大小和数据需求的增加,对能够有效扩展的解决方案的需求变得越来越迫切。
目前的技术,例如专家混合 (MOE) 模型,已经被开发来解决其中一些挑战。MOE 通过仅激活给定输入的参数子集来引入稀疏性,与完全密集的模型相比,减少了计算开销。然而,MOE 架构通常无法满足需要精确事实回忆和一般知识表示的任务。此外,这些方法通常需要复杂的设计,并且大规模实施具有挑战性。尽管如此,MOE 模型一直在努力充分满足对高效、可扩展架构不断增长的需求,这促使研究人员探索替代方法。
为了提高 AI 架构中内存层的实用性,Meta 的 FAIR 研究人员专注于扩展和改进其实现。内存层最初被提出作为键值查找机制,已显示出有效存储和检索信息的潜力。Meta 研究人员将这些存储层集成到变压器架构中,取代了各种配置中的前馈网络。这一成果代表着内存容量提高了两个数量级,内存参数扩展至 1280 亿个。通过修改和优化内存层,该团队证明了他们在各种基准测试中优于密集模型和 MOE 模型的能力,特别是那些需要事实准确性和知识检索的基准模型。
改进的内存层设计结合了可训练的键值嵌入,并利用稀疏激活模式来提高效率。产品密钥查找是一种将密钥分割成更小的子集以进行高效搜索的技术,可以在计算量不呈指数增长的情况下扩展内存层。跨 GPU 的并行内存操作进一步简化了性能,使系统能够处理数百万个键,同时保持可管理的计算负载。在早期的实现中,定制 CUDA 内核优化了内存操作,实现了接近 3 TB/s 的 GPU 带宽,而之前的带宽还不到 400 GB/s。
例如,在评估中,具有存储层的 13 亿参数模型达到了与密集模型相当的精度,而计算要求是密集模型的两倍。在 NaturalQuestions 和 TriviaQA 等实际问答任务中,记忆增强模型的准确性提高了 100% 以上。扩展实验表明,具有 6400 万个键和 1280 亿个内存参数的内存模型接近 Llama2 7B 模型的性能,但这需要更多的计算资源。此外,记忆增强模型表现出更快的学习速度,用更少的训练令牌达到高精度。
该研究的几个要点包括:
总之,Meta FAIR 的研究提高了 AI 模型中内存层的可扩展性和实用性。该研究强调了内存层通过改进实现并展示其在各种任务中的效率来解决神经网络架构中的关键挑战的潜力。这些发现凸显了一个有前途的方向,提供了平衡计算需求与增强的知识存储能力的工具。
查看这纸。这项研究的所有功劳都归功于该项目的研究人员。另外,不要忘记关注我们 叽叽喳喳并加入我们的 电报频道和 领英 集团奥普。不要忘记加入我们的 60k+ ML SubReddit。
ðě 趋势:LG AI Research 发布 EXAONE 3.5:三个开源双语前沿 AI 级模型,提供无与伦比的指令跟踪和长上下文理解,以实现卓越生成 AI 的全球领导地位……。