加入我们的每日和每周时事通讯,了解有关行业领先人工智能报道的最新更新和独家内容。了解更多
随着谣言和报道不断流传顶级人工智能公司在开发更新、更强大的大型语言模型(LLM)方面面临的困难,人们的注意力越来越多地转向“Transformer”的替代架构——谷歌研究人员在 2017 年的开创性论文中介绍了支撑当前大部分生成式人工智能热潮的技术——您所需要的就是关注。—
正如该论文以及今后的描述,变压器是一种深度学习神经网络架构,用于处理顺序数据,例如文本或时间序列信息。
现在,麻省理工学院诞生的初创公司 Liquid AI有推出 STAR(定制架构综合),一个创新框架,旨在自动生成和优化人工智能模型架构。
STAR 框架利用进化算法和数值编码系统来解决深度学习模型中平衡质量和效率的复杂挑战。
Liquid AI 的研究团队(包括 Armin W. Thomas、Rom Parnichkun、Alexander Amini、Stefano Massaroli 和 Michael Poli)表示,STAR 的方法代表了传统架构设计方法的转变。
STAR 不依赖手动调整或预定义模板,而是使用分层编码技术(称为“STAR 基因组”)来探索潜在架构的广阔设计空间。
这些基因组支持重组和突变等迭代优化过程,使 STAR 能够合成和完善根据特定指标和硬件要求定制的架构。
与传统 ML Transformer 相比,缓存大小减少了 90%
Liquid AI 最初的 STAR 重点是自回归语言建模,这是传统 Transformer 架构长期以来占据主导地位的领域。
在研究过程中进行的测试中,Liquid AI 研究团队证明了 STAR 能够生成始终优于高度优化的 Transformer++ 和混合模型的架构。
例如,在优化质量和缓存大小时,与混合模型相比,STAR-evolved 架构的缓存大小减少了高达 37%,与 Transformer 相比减少了 90%。尽管效率有所提高,STAR 生成的模型仍保持或超过了同类模型的预测性能。
同样,当负责优化模型质量和大小时,STAR 将参数数量减少了多达 13%,同时仍然提高了标准基准的性能。
该研究还强调了 STAR 扩展其设计的能力。STAR-evolved 模型的参数从 1.25 亿扩展到 10 亿,提供了与现有 Transformer++ 和混合模型相当或更好的结果,同时显着降低了推理缓存要求。
重新构建AI模型架构
Liquid AI 表示,STAR 植根于一种设计理论,融合了动力系统、信号处理和数值线性代数的原理。
这种基础方法使团队能够为计算单元开发通用的搜索空间,包括注意力机制、递归和卷积等组件。
STAR 的显着特征之一是其模块化,允许框架跨多个层次结构编码和优化架构。此功能提供了对重复设计主题的见解,并使研究人员能够识别架构组件的有效组合。
STAR 的下一步是什么?
STAR 综合高效、高性能架构的能力具有远远超出语言建模范围的潜在应用。Liquid AI 设想该框架可用于应对质量和计算效率之间的权衡至关重要的各个领域的挑战。
虽然 Liquid AI 尚未透露商业部署或定价的具体计划,但研究结果标志着自动化架构设计领域的重大进步。对于寻求优化人工智能系统的研究人员和开发人员来说,STAR 可以成为突破模型性能和效率界限的强大工具。
Liquid AI 以其开放的研究方法发表了同行评审论文中 STAR 的完整细节,鼓励合作和进一步创新。随着人工智能领域的不断发展,像 STAR 这样的框架将在塑造下一代智能系统方面发挥关键作用。STAR 甚至可能预示着新的后 Transformer 架构热潮的诞生——这是机器学习和人工智能研究社区受欢迎的冬季节日礼物。