人工智能初创公司、麻省理工学院的衍生公司 Liquid AI Inc. 今天推出了其第一组生成式 AI 模型,它们与竞争模型显着不同,因为它们建立在全新的架构之上。
新模型被称为 Liquid Foundation Models(LFM),据说可以提供令人印象深刻的性能这与当今一些最好的大型语言模型相当,甚至优于它们。
这家位于波士顿的初创公司由麻省理工学院的一组研究人员创立,其中包括 Ramin Hasani、马蒂亚斯·莱希纳、亚历山大·阿米尼和丹妮拉·罗斯。据说他们是液体神经网络概念的先驱,液体神经网络是一类人工智能模型,与我们今天所了解和喜爱的基于生成式预训练 Transformer 的模型有很大不同,例如 OpenAI 的 GPT 系列和 Google LLC 的 Gemini 模型。
该公司的使命是创建功能强大且高效的通用模型,供各种规模的组织使用。为此,它构建了基于 LFM 的人工智能系统,该系统可以在从网络边缘到企业级部署的各种规模上工作。
根据 Liquid 的说法,其 LFM 代表了新一代人工智能系统,其设计时同时考虑了性能和效率。该公司解释说,它们使用最少的系统内存,同时提供卓越的计算能力。
它们以动态系统、数值线性代数和信号处理为基础。这使得它们非常适合处理各种类型的顺序数据,包括文本、音频、图像、视频和信号。
Liquid AI 在 12 月份首次成为头条新闻,当时筹集了 3760 万美元的种子资金。当时,它解释说,其 LFM 基于一种较新的液体神经网络架构,该架构最初是在麻省理工学院计算机科学和人工智能实验室开发的。LNN 基于人工神经元或用于转换数据的节点的概念。
传统深度学习模型需要数千个神经元来执行计算任务,而 LNN 可以用更少的神经元实现相同的性能。它通过将这些神经元与创新的数学公式相结合来实现这一点,使其能够用更少的资源做更多的事情。
该初创公司表示,其 LFM 保留了这种适应性和高效的能力,这使得它们能够在推理无需传统大语言模型相关的巨大计算开销。因此,它们可以有效地处理多达 100 万个代币,而不会对内存使用产生任何明显影响。
Liquid AI 在推出时推出了一系列三个模型,其中包括 LFM-1B,这是一个具有 13 亿个参数的密集模型,专为资源受限的环境而设计。稍微强大一点的是LFM-3B,它有31亿个参数,针对边缘部署,例如移动应用、机器人和无人机。最后,还有 LFM-40B,它是一个更强大的专家模型混合体,拥有 403 亿个参数,旨在部署在云服务器上,以处理最复杂的用例。
这家初创公司认为其新产品模型已经在许多重要的人工智能基准测试中显示出最先进的结果,并且相信它们正在成为 ChatGPT 等现有生成式人工智能模型的强大竞争对手。
而传统的大语言模型看到执行长上下文处理时内存使用量急剧增加,LFM-3B 模型显着地保持了更小的内存占用(上图),这使其成为需要处理大量顺序数据的应用程序的绝佳选择。该公司表示,示例用例可能包括聊天机器人和文档分析。
就其性能而言,LFM 取得了一些令人印象深刻的结果,其中 LFM-1B 表现出色相同尺寸类别中基于变压器的型号。与此同时,LFM-3B 能够很好地对抗 Microsoft Corp. 的 Phi-3.5 和 Meta Platforms Inc. 的 Llama 系列等型号。至于LFM-40B,其效率甚至可以超越更大的模型,同时在性能和效率之间保持无与伦比的平衡。
Liquid AI 表示,LFM-1B 模型在基准测试中表现出尤其主导的性能MMLU 和 ARC-C 等,为 1B 参数模型设立了新标准。
该公司正在通过 Liquid Playground 等平台、通过其 Chat 和应用程序编程接口提供 Lambda 等早期访问版本和困惑实验室。这将使组织有机会将其模型集成到各种人工智能系统中,并了解它们在各种部署场景(包括边缘设备和本地)中的表现。
它现在所做的事情之一是优化LFM 模型将在 Nvidia Corp.、Advanced Micro Devices Inc.、Apple Inc.、Qualcomm Inc. 和 Cerebras Computer Inc. 构建的特定硬件上运行,因此用户在达到目标时将能够从它们中获得更多性能全面上市。
该公司表示,将在正式发布之前发布一系列技术博客文章,深入探讨每种型号的机制。此外,它还鼓励红队合作,邀请人工智能社区对其 LFM 进行极限测试,看看它们能做什么、不能做什么。