麻省理工学院衍生公司 Liquid 首次推出非 Transformer AI 模型,它们已经是最先进的 - VentureBeat

2024-09-30 21:16:47 英文原文

加入我们的每日和每周时事通讯,了解有关行业领先人工智能报道的最新更新和独家内容。了解更多

Liquid AI 是一家由麻省理工学院 (MIT) 计算机科学与人工智能实验室 (CSAIL) 前研究人员共同创立的初创公司,宣布推出首款多模态 AI 模型:液体基础模型 (LFM)。

与当前生成式 AI 浪潮中的大多数其他模型不同,这些模型并非基于 2017 年开创性论文《注意力就是你所需要的一切》中概述的 Transformer 架构。

他们似乎已经做到了这一点,因为新的 LFM 模型已经拥有比其他尺寸相当的基于变压器的模型(例如 Metas Llama 3.1-8B 和 Microsoft 的 Phi-3.5 3.8B)优越的性能。

液体 LFM 目前有三种不同的尺寸和型号:

  • LFM 1.3B(最小)
  • LFM 3B
  • LFM 40B MoE(最大的,类似于 Mistral Mixtral 的专家混合模型)

名称中的 B 代表十亿,指的是控制模型信息处理、分析、和输出生成。一般来说,参数数量越多的模型就越能胜任更广泛的任务。

Liquid AI 表示,LFM 1.3B 版本在以下方面的性能优于 Metas new Llama 3.2-1.2B 和 Microsoft 的 Phi-1.5:许多领先的第三方基准测试,包括流行的大规模多任务语言理解 (MMLU),由科学、技术、工程和数学 (STEM) 领域的 57 个问题组成,这是非 GPT 架构首次显着优于基于 Transformer 的模型。

这三款产品均旨在提供最先进的性能,同时优化内存效率,Liquids LFM-3B 仅需要 16 GB 内存,而 Metas Llama-3.2 则需要超过 48 GB 内存-3B 模型(如上图所示)。

Liquid AI 后期培训主管 Maxime Labonne 在他的 X 账户上表示,LFM 是我职业生涯中最值得骄傲的版本:)阐明 LFM 的核心优势:它们能够在使用显着更少的内存的情况下超越基于 Transformer 的模型。

这些模型的设计不仅在原始性能基准上具有竞争力,而且在运行效率方面也具有竞争力,使它们成为各种用例的理想选择,从金融服务、生物技术和消费电子领域的企业级应用程序到边缘设备上的部署。

但是,对于潜在用户和客户来说,这一点很重要,这些模型不是开源的。相反,用户需要通过 Liquids 推理平台、Lambda Chat 或 Perplexity AI 来访问它们。

Liquid 如何超越生成式预训练变压器 (GPT)

在此Liquid 表示,它使用了深深植根于动力系统、信号处理和数值线性代数理论的计算单元的混合,其结果是通用人工智能模型,可用于对任何类型的顺序数据进行建模,包括视频、音频、文本、时间序列和信号来训练其新的 LFM。

去年,VentureBeat 详细介绍了用于训练后 Transformer AI 模型的 Liquids 方法,并指出当时它正在使用Liquid Neural Networks (LNN) 是 CSAIL 的架构开发人员,致力于使用于转换数据的人工神经元或节点更加高效且适应性更强。

与传统深度学习模型不同,传统深度学习模型需要数千个神经元才能执行任务对于复杂的任务,LNN 证明,更少的神经元与创新的数学公式相结合就可以达到相同的结果。

液体人工智能的新模型保留了这种适应性的核心优势,允许在推理过程中进行实时调整,而无需与传统模型,可有效处理多达 100 万个令牌,同时将内存使用量保持在最低水平。

Liquid 博客中的图表显示,例如,LFM-3B 模型的性能优于 Google Gemma 等流行模型-2、微软的 Phi-3 和 Metas Llama-3.2 在推理内存占用方面,尤其是在令牌长度缩放时。

虽然其他模型在长上下文处理中的内存使用量急剧增加,但 LFM-3B 的占用空间明显更小,使其非常适合需要大量顺序数据处理的应用程序,例如文档分析或聊天机器人。

Liquid AI 构建的基础模型可跨多种数据模式使用,包括音频、视频和文本。

凭借这种多模式功能,Liquid 旨在解决从金融服务到生物技术和消费电子产品等各种行业特定的挑战。

接受发布活动邀请并着眼于未来的改进

Liquid AI 表示正在优化其模型,以便在 NVIDIA、AMD、Apple、Qualcomm 和 Cerebras 的硬件上部署。

虽然这些模型目前仍处于预览阶段,Liquid AI 邀请早期采用者和开发者测试模型并提供反馈。

Labonne 指出,虽然事情并不完美,但此阶段收到的反馈将帮助团队完善模型为 2024 年 10 月 23 日在马萨诸塞州剑桥麻省理工学院克雷斯吉礼堂举行的全面启动活动做准备。该公司正在接受现场与会者的回复。

作为其对透明度和科学进步承诺的一部分,Liquid 表示将在产品发布前发布一系列技术博客文章

该公司还计划参与红队工作,鼓励用户测试其模型的极限,以改进未来的迭代。

随着 Liquid Foundation 模型的推出,Liquid AI 将自己定位为基础模型领域的关键参与者。通过将最先进的性能与前所未有的内存效率相结合,LFM 为传统基于变压器的模型提供了令人信服的替代方案。

关于《麻省理工学院衍生公司 Liquid 首次推出非 Transformer AI 模型,它们已经是最先进的 - VentureBeat》
暂无评论

摘要

加入我们的每日和每周时事通讯,了解有关行业领先人工智能报道的最新更新和独家内容。这三款产品均旨在提供最先进的性能,同时优化内存效率,Liquids LFM-3B 仅需要 16 GB 内存,而 Metas Llama-3.2-3B 模型则需要超过 48 GB 内存(如图所示)Liquid AI 后期培训负责人 Maxime Labonne 在 X 帐户上表示,LFM 是我职业生涯中最值得骄傲的版本:) 并澄清了 LFM 的核心优势:它们表现出色的能力基于变压器的模型,同时使用显着更少的内存。这些模型的设计不仅在原始性能基准上具有竞争力,而且在运营效率方面也具有竞争力,使其成为各种用例的理想选择,从企业级应用程序,特别是金融服务、生物技术和消费电子领域,部署在边缘设备上。该公司还计划参与红队工作,鼓励用户测试其模型的极限,以改进未来的迭代。随着 Liquid Foundation Models 的推出,Liquid AI 将自己定位为基础模型领域的关键参与者。