概括
适应是自然界最显着的现象之一。从方式章鱼可以改变肤色融入周围环境,如何人类大脑在受伤后会自我重新连接,让个人恢复失去的功能并适应新的思维或行动方式。生物体表现出适应性,使生命能够在多样化和不断变化的环境中蓬勃发展。
在人工智能领域,适应的概念也具有类似的吸引力。想象一个机器学习系统,它可以动态调整自己的权重,以便在不熟悉的环境中蓬勃发展,本质上说明了一个随着学习而进化的系统。人工智能的自适应性保证了更高的效率以及与现实世界的动态性质保持一致的终身模型的潜力。
这种自适应人工智能的愿景是我们最新的核心研究论文,变压器² (—变压器平方—),我们提出了一个机器学习系统,可以动态调整各种任务的权重。名称变压器²反映了其两步过程:首先,模型分析传入的任务以了解其要求,然后应用特定于任务的适应以生成最佳结果。通过有选择地调整模型权重的关键组成部分,我们的框架允许法学硕士实时动态地适应新任务。Transformer² 在各种任务(例如数学、编码、推理和视觉理解)上展示了显着进步,在效率和特定任务性能方面优于 LoRA 等传统静态方法,同时需要的参数少得多。
我们的研究让我们得以一睹人工智能模型不再静态的未来。这些系统将在测试时动态扩展其计算,以适应它们遇到的任务的复杂性,包括生活智慧能够持续改变和终身学习。我们相信自适应不仅会改变人工智能研究,还会重新定义我们与智能系统交互的方式,创造一个适应性和智能齐头并进的世界。
变压器²是一个机器学习系统,可以动态调整各种任务的权重。适应是一种非凡的自然现象,就像章鱼如何将其颜色与环境融为一体,或者大脑在受伤后如何重新连接一样。我们相信,我们的新系统为新一代自适应人工智能模型铺平了道路,修改它们自己的权重和架构以适应它们遇到的任务的性质,体现出能够持续变化和终身学习的生命智能。
剖析法学硕士的大脑
正如人脑通过互连的神经通路存储知识并处理信息一样,法学硕士也将知识存储在其权重矩阵中。这些矩阵是法学硕士的“大脑”,掌握着从训练数据中学到的精华。
要了解这个“大脑”并确保它能够有效地适应新任务,需要仔细观察其内部结构。这就是奇异值分解(奇异值分解)提供了宝贵的见解。将 SVD 想象为外科医生对法学硕士的大脑进行详细的手术。这位外科医生将法学硕士中存储的大量复杂知识分解为更小的、有意义的和独立的部分(例如,数学、语言理解等的不同途径或组成部分)。
SVD 通过识别 LLM 权重矩阵的主要组成部分来实现此目的。在我们的研究中,我们发现增强这些组件子集的信号同时抑制其他组件可以提高法学硕士在下游任务上的表现。在此基础上,Transformer² 朝着动态、特定任务的适应迈出了下一步,使法学硕士能够在多样化和复杂的场景中表现出色。
Transformer 简介²
Transformer² 是一种新颖的方法,开创了自适应法学硕士的概念,通过两步过程重新定义了这些强大的模型如何处理不同的任务。其核心是动态调整权重矩阵关键组成部分的能力。在训练时,我们引入了奇异值微调(SVF),这是一种采用强化学习(RL)来增强/抑制来自不同“大脑”组件的信号的方法,用于各种类型的下游任务。在推理时,我们采用三种不同的策略来检测任务的身份并相应地调整模型的权重。下图概述了我们的方法。
我们的方法的说明。
左边:我们使用 SVD 将 LLM 的“大脑”(即权重矩阵)分解为多个独立的组件。
正确的:我们使用强化学习来训练这些组件的组合以完成各种任务。组件可以在不同的任务之间共享。例如,在上图中,语言理解和推理共享紫色齿轮。在推理时,我们识别任务类型,然后动态调整组件的组合。
使用 SVF 和 RL 进行训练
在训练时,SVF 学习一组z 向量,每个下游任务一个。每个 z 向量可以被视为任务的专家,是一个紧凑的表示,指定权重矩阵中每个组件的所需强度,充当一组“放大器”或“阻尼器”调节不同组件对模型行为的影响。
例如,假设 SVD 将权重矩阵分解为五个分量 [A、B、C、D、E]。对于数学任务,学习的 z 向量可能是 [1, 0.8, 0, 0.3, 0.5],这意味着组件 A 对于数学至关重要,而组件 C 几乎不影响其性能。对于语言理解任务,z 向量可以是 [0.1, 0.3, 1, 0.7, 0.5],这凸显了组件 C 对于该任务至关重要,尽管它对于数学来说用处不大。
SVF 使用 RL 在一组预定义的下游任务上学习这些 z 向量。学习到的 z 向量使 Transformer 能够适应各种新的下游任务,同时仅引入最少数量的附加参数(即 z 向量)。
自适应
在推理时,我们为我们的框架设计了一种两遍适应策略,该策略有效地结合了一组特定于任务的 z 向量。在第一次推理过程中,给定任务或单独的输入提示,Transformer² 使用以下三种适应方法之一分析其测试时间条件。在第二遍中,Transformer² 然后通过组合 z 向量来相应地调整权重,产生与其新设置最相关的最终响应。
我们总结了任务检测/适应的三种方法如下:
-
基于提示的适应。专门设计的适应提示对任务进行分类(例如数学、编码)并选择预先训练的 z 向量。
-
基于分类器的适应。使用 SVF 训练的任务分类器在推理期间识别任务并选择适当的 z 向量。
-
少镜头适应。通过加权插值组合多个预训练的 z 向量。一个简单的优化算法根据几次评估集的性能来调整这些权重。
这三种方法共同确保 Transformer² 实现稳健、高效的任务适应,为在不同场景中实现卓越性能铺平道路。请参考我们的纸了解详情。
主要结果
我们将我们的方法应用于 Llama 和 Mistral LLM 的广泛任务,包括数学(GSM8K、MATH)、代码(MBPP-Pro、HumanEval)、推理(ARC-Easy、ARC-Challenge)和视觉问答(文本VQA,OKVQA)。
我们首先着手通过 SVF 在这些任务上获取 z 向量,并将其与 LoRA 进行比较。下表中的结果表明,SVF 在基于文本的任务上优于 LoRA,尤其是在 GSM8K 上的表现尤其强劲。这可以归因于我们的 RL 训练目标,与 LoRA 的微调方法不同,它不需要每个问题都有“完美的解决方案”。右侧的直方图也说明了 SVF 在视觉领域的惊人能力。
SVF 对广泛任务的评估。
我们将每个任务分为训练集、验证集和测试集。我们使用 MBPP-Pro 的 pass@1 报告测试集性能,并使用所有其他任务的准确性作为评估指标。左边:语言任务上的 SVF。标准化分数在括号中。正确的:VQA 任务上的 SVF。
然后,我们针对 LoRA 在未见过的任务上评估我们的适应框架,特别是 MATH、HumanEval 和 ARC-Challenge。下表表明,随着所有任务的方法复杂性增加,我们的策略实现了性能提升。
一个特别有趣的发现来自于分析少样本学习如何结合不同的 z 向量来处理任务,如右图所示。在解决数学问题时,与预期相反,该模型并不完全依赖其 GSM8K(数学)专用 z 向量。这表明复杂的数学推理得益于数学、程序和逻辑推理能力的结合。我们在其他任务和模型中观察到类似的意外组合,突显了该框架综合不同类型的专业知识以实现最佳性能的能力。
Transformer 评估²。
我们直接报告未见过的任务的测试集性能。左边:对未见过的任务的自适应。正确的:学习 z 向量插值权重。
最后,我们探讨了一个挑战人工智能开发传统智慧的有趣问题:我们能否将知识从一种模型转移到另一种模型?令我们兴奋的是,当将学习到的 z 向量从 Llama 转移到 Mistral 时,我们观察到了积极的影响,后者在大多数任务上表现出更好的性能。详细结果请参见下表。
虽然这些发现很有希望,但我们应该注意到,这两种模型具有相似的架构,这可能解释了它们的兼容性。这种知识共享在更多样化的人工智能模型之间是否有效仍然是一个悬而未决的问题。尽管如此,这些结果仍然表明,为更新/更大的模型打开解开和回收特定任务技能的大门具有令人兴奋的可能性。
跨模型 z 向量传输。
将 Llama3-8B-Instruct 上训练的“专家”转移到 Mistral-7B-Instruct-v0.3 并进行几次调整的结果。
未来:从静态模型到生活智能
Transformer² 代表了人工智能系统发展的一个重要里程碑。它能够实时动态地适应看不见的任务,并增强组合性,这证明了自适应法学硕士具有彻底改变人工智能研究和应用的潜力。
但这仅仅是开始。Transformer² 让我们得以一窥未来,人工智能系统不再是为固定任务训练的静态实体。相反,它们将体现“活的智能”,即随着时间的推移不断学习、进化和适应的模型。想象一下,人工智能能够无缝集成新知识或在现实环境中调整其行为,而无需重新训练,就像人类如何适应新挑战一样。
前进的道路在于构建能够动态适应其他系统并与之协作的模型,结合专业功能来解决复杂的多领域问题。像 Transformer² 这样的自适应系统弥合了静态人工智能和生活智能之间的差距,为高效、个性化和完全集成的人工智能工具铺平了道路,推动了各行各业和我们日常生活的进步。
坂名爱
有兴趣加入我们吗?请参阅我们的职业机会了解更多信息。