英语轻松读发新版了,欢迎下载、更新

Sakana AI 推出 Transformer²:一种机器学习系统,可动态调整各种任务的权重

2025-01-17 03:43:10 英文原文

作者:Nikhil

法学硕士在教育、医疗保健和客户服务等行业至关重要,在这些行业中,自然语言理解发挥着至关重要的作用。尽管法学硕士的用途广泛,但其面临的挑战是适应新任务。大多数微调方法都非常耗费资源和时间。此外,微调方法通常会导致过度拟合或牺牲特定任务性能的一般适应性。这是法学硕士解决动态新任务和不可预见任务的障碍,并在整个申请中造成瓶颈。

应对这些挑战的最突出的方法之一是低秩适应 (LoRA),它更新小型的特定于任务的矩阵,同时冻结模型的其余参数。尽管这降低了微调的计算成本,但它也有局限性,例如对过度拟合的敏感性增加以及无法跨任务有效扩展。此外,LoRA 的设计缺乏固有的组合性,限制了其集成多个特定领域技能的能力。

Sakana AI 和东京科学研究所的研究人员推出了 Transformer²,这是一种新颖的自适应机器学习框架大语言模型。Transformer² 采用了一种称为奇异值微调 (SVF) 的突破性方法,该方法可以使法学硕士实时适应新任务,而无需进行大量的再培训。通过专注于有选择地修改模型权重矩阵的奇异组成部分,Transformer² 可以实现针对特定任务的动态调整。这项创新减少了与微调相关的计算负担,为自适应提供了可扩展且高效的解决方案。

Transformer² 的核心是 SVF 方法,它可以微调权重矩阵的奇异值。与传统方法相比,这种方法大大减少了可训练参数的数量。SVF 没有改变整个模型,而是利用强化学习来创建专门用于特定任务的紧凑“专家”向量。对于推理过程,Transformer² 采用双通道机制:首先是分析任务可能是什么和需要什么,其次是动态集成各种相关的专家向量以产生合适的行为。该方法以模块化方式确保通过 Transformer² 解决如此广泛的任务的效率。

Transformer² 在广泛的基准评估中表现出色。例如,与视觉问答领域的基线相比,该框架显示出超过 39% 的改进。在数学相关的问题解决中,当在 GSM8K 数据集上进行测试时,该模型显示出其优势,比任何微调方法都胜出,达到了约 4% 的性能提升。在 MBPP-pro 基准测试下的编程任务中,Transformer² 对特定领域的任务及其在各种类型域上的总体性能表现出相当大的准确性改进。因此,Transformer² 通过保持或超过基准性能指标,有效地适应了 ARC-Challenge 和 Humaneval 等看不见的任务。

一个重要的总体结果是 SVF 方法的效率。这缩短了训练时间并减少了对大量计算的需求,因为该方法使用的参数不到 LoRA 所需参数的 10%。例如,对于 GSM8K 数据集,SVF 训练只需要 39 万个参数,而使用 LoRA 则需要 682 万个参数才能实现更高的性能。此外,该模型表现出良好的组合性;作为一项任务的专家训练的向量可以重复使用,并与其他任务一起添加到不同的、不相关的任务中,这表明能够扩展这个 Transformer² 框架。

研究人员通过解决现有方法的核心局限性(例如过度拟合和低效率)实现了这一飞跃。通过利用强化学习,SVF 方法提供了有原则的正则化,防止小数据集或狭窄任务域上的性能崩溃。这使得 Transformer² 在训练数据有限的情况下仍能表现出色,同时保持任务适应性。

结论:Sakana AI 的研究团队为法学硕士的特定任务适应提供了可扩展且高效的解决方案。Transformer² 及其 SVF 方法是该领域的一项非常重大的进步,将为计算高效、高度通用的自适应人工智能系统铺平道路。这种方法将解决当前的挑战,并为自适应人工智能技术的未来发展奠定基础。


查看GitHub 页面这项研究的所有功劳都归功于该项目的研究人员。另外,不要忘记关注我们 叽叽喳喳并加入我们的 电报频道和 领英 集团奥普。不要忘记加入我们的 65k+ ML SubReddit

噗噗噗推荐开源平台Parlant 是一个框架,它改变了人工智能代理在面向客户的场景中做出决策的方式。 (已晋升)

Nikhil 是 Marktechpost 的实习顾问。他正在印度理工学院卡拉格普尔分校攻读材料综合双学位。Nikhil 是一位 AI/ML 爱好者,一直在研究生物材料和生物医学等领域的应用。凭借深厚的材料科学背景,他正在探索新的进步并创造贡献的机会。

关于《Sakana AI 推出 Transformer²:一种机器学习系统,可动态调整各种任务的权重》的评论


暂无评论

发表评论

摘要

Sakana AI 和东京科学研究所的研究人员推出了 Transformer²,这是一种用于大型语言模型 (LLM) 的新型自适应框架。关键的创新是奇异值微调(SVF),它可以通过修改权重矩阵的奇异分量来实现实时适应,而无需进行大量的再训练。与传统方法和 LoRA 相比,这种方法显着降低了计算成本,并且在 GSM8K 和 MBPP-pro 等基准测试中看到了效率提高,实现了高达 39% 的性能提升。Transformer² 还表现出良好的组合性,能够在不同的任务中重用专家向量,使其可扩展至各个领域。该研究解决了过度拟合和低效率等挑战,为多功能和适应性强的人工智能系统铺平了道路。