英语轻松读发新版了,欢迎下载、更新

Meta AI 提出大型概念模型 (LCM):超越基于令牌的语言建模的语义飞跃

2024-12-16 00:44:01 英文原文

作者:Asif Razzaq

大型语言模型 (LLM) 在自然语言处理 (NLP) 方面取得了显着的进步,使得在文本生成、摘要和问答方面的应用成为可能。然而,它们对标记级处理(一次预测一个单词)的依赖带来了挑战。这种方法与人类交流形成鲜明对比,人类交流通常在更高的抽象层次上进行,例如句子或想法。

令牌级建模还难以处理需要长上下文理解的任务,并且可能会产生不一致的输出。此外,将这些模型扩展到多语言和多模式应用程序的计算成本很高且数据密集。为了解决这些问题,Meta AI 的研究人员提出了一种新方法:大型概念模型(LCM)

大型概念模型

Meta AI 的大型概念模型 (LCM) 代表了传统法学硕士架构的转变。LCM 带来了两项重大创新:

  1. 高维嵌入空间建模:LCM 不是对离散标记进行操作,而是在高维嵌入空间中执行计算。这个空间代表抽象的意义单位,称为概念,对应于句子或话语。名为 SONAR 的嵌入空间被设计为与语言和模态无关,支持 200 多种语言和多种模态,包括文本和语音。
  2. 与语言和模态无关的建模:与与特定语言或模式相关的模型不同,LCM 在纯粹的语义级别上处理和生成内容。这种设计允许跨语言和模式的无缝转换,从而实现强大的零样本泛化。

LCM 的核心是概念编码器和解码器,它们将输入句子映射到 SONAR 的嵌入空间,并将嵌入解码回自然语言或其他模式。这些组件被冻结,确保模块化并易于扩展到新语言或模式,而无需重新训练整个模型。

LCM 的技术细节和优点

LCM 引入了多项创新来推进语言建模:

  1. 层次结构:LCM 采用分层结构,反映人类推理过程。这种设计提高了长篇内容的连贯性,并支持本地化编辑,而不会破坏更广泛的上下文。
  2. 基于扩散的生成:扩散模型被认为是 LCM 最有效的设计。这些模型根据先前的嵌入来预测下一个 SONAR 嵌入。探索了两种架构:
    • 一塔:单个 Transformer 解码器可处理上下文编码和去噪。
    • 两塔:将上下文编码和去噪分开,为每个任务提供专用组件。
  3. 可扩展性和效率:与令牌级处理相比,概念级建模减少了序列长度,解决了标准 Transformer 的二次复杂性,并能够更有效地处理长上下文。
  4. 零样本泛化:LCM 表现出强大的零样本泛化能力,通过利用 SONAR 广泛的多语言和多模式支持,在未见过的语言和模式上表现良好。
  5. 搜索和停止标准:具有基于到“文档末尾”概念的距离的停止标准的搜索算法可确保连贯且完整的生成,而无需进行微调。

实验结果的见解

Meta AI 的实验凸显了 LCM 的潜力。基于扩散的两塔 LCM 可扩展至 70 亿个参数,在摘要等任务中展示了具有竞争力的性能。主要结果包括:

  • 多语言总结:LCM 在跨多种语言的零样本摘要方面优于基线模型,展示了它们的适应性。
  • 摘要扩展任务:这项新颖的评估任务证明了 LCM 生成连贯一致的扩展摘要的能力。
  • 效率和准确性:LCM 比基于令牌的模型更有效地处理较短的序列,同时保持准确性。正如研究结果所详述,互信息和对比准确性等指标显示出显着改善。

结论

Meta AI 的大型概念模型为传统的基于标记的语言模型提供了一种有前景的替代方案。通过利用高维概念嵌入和模态不可知处理,LCM 解决了现有方法的关键局限性。它们的分层架构增强了一致性和效率,而强大的零样本泛化能力则扩展了它们对不同语言和模式的适用性。随着对该架构的研究不断进行,LCM 有可能重新定义语言模型的功能,为人工智能驱动的通信提供更具可扩展性和适应性的方法。


查看GitHub 页面。这项研究的所有功劳都归功于该项目的研究人员。另外,不要忘记关注我们 叽叽喳喳并加入我们的 电报频道和 领英 集团奥普。不要忘记加入我们的 60k+ ML SubReddit

ðě 趋势:LG AI Research 发布 EXAONE 3.5:三个开源双语前沿 AI 级模型,提供无与伦比的指令跟踪和长上下文理解,以实现卓越生成型 AI 的全球领导地位…。

Asif Razzaq 是 Marktechpost Media Inc. 的首席执行官。作为一位富有远见的企业家和工程师,Asif 致力于利用人工智能的潜力造福社会。他最近的努力是推出人工智能媒体平台 Marktechpost,该平台因其对机器学习和深度学习新闻的深入报道而脱颖而出,技术可靠且易于广大受众理解。该平台月浏览量超过200万,可见其深受观众欢迎。

关于《Meta AI 提出大型概念模型 (LCM):超越基于令牌的语言建模的语义飞跃》的评论


暂无评论

发表评论

摘要

大型语言模型 (LLM) 在 NLP 方面取得了重大进展,但在标记级处理方面面临挑战。Meta AI 的研究人员提出了大型概念模型 (LCM),该模型在高维嵌入空间上运行并且与语言无关,支持 200 多种语言和多种模式。LCM 使用概念编码器和解码器将句子映射到称为 SONAR 的嵌入空间中,并解码回自然语言或其他模式,而无需重新训练新语言/模式。关键创新包括分层架构、基于扩散的生成以及长上下文的有效处理。实验结果表明,在多语言摘要和摘要扩展任务中具有竞争性的性能,并且比令牌级模型具有效率提升。LCM 承诺通过跨不同语言和模式的可扩展性和适应性来重新定义人工智能驱动的通信。