斯坦福大学的研究人员提出ExPLoRA:一种有效的人工智能技术,用于改善预训练视觉变压器(ViT)在域转移情况下的迁移学习性能

2024-10-12 21:00:39 英文原文

作者:Sana Hassan

参数高效的微调(PEFT)方法,如低秩适应(LoRA),允许大型预训练基础模型使用原始可训练权重的很小比例(0.1%-10%)来适应下游任务。PEFT的一个较少被探索的领域是扩展无监督标签的预训练阶段——具体来说,就是利用高效的自监督预训练将基础模型适配到新的领域中。尽管传统上在语言和视觉领域的基础模型预训练需要大量的资源,但最近在PEFT技术方面的进展已经使得基于权重更新具有低固有秩这一假设的前提下实现了低成本的有效微调。

视觉基础模型(VFMs)如DinoV2和掩码自编码器(MAE)通过自监督学习在分类和语义分割等任务中表现出色。最近,特定领域的VFMs出现,例如SatMAE,它处理时序或多光谱卫星图像。这些大型模型的高效适应推动了PEFT方法的采用,这些方法仅更新部分参数。低秩适应(LoRA)等技术应用低秩权重更新,而其他技术则修改可训练参数的数量。领域自适应策略使用偏差度量或对抗性训练来解决训练数据和测试数据之间的分布变化问题,以增强跨领域的模型性能。

斯坦福大学和CZ Biohub的研究人员开发了一种名为ExPLoRA的创新技术,用于增强预训练视觉变换器(ViT)在领域变化中的迁移学习。通过用大型自然图像数据集(如DinoV2或MAE)的权重初始化一个ViT,ExPLoRA继续在新域中进行无监督预训练,并选择性地解冻1-2个ViT块,同时使用LoRA微调其余层。该方法在卫星影像分类任务上实现了最先进的性能,在仅利用与先前完全预训练模型相比6-10%的参数的情况下,将Top-1准确性提高了8%,展示了其在领域适应方面的高效性和有效性。

MAE和DinoV2是针对ViT的自监督学习方法。MAE采用了一种掩码编码器-解码器结构,需要对下游任务进行完全微调,这可能会消耗大量计算资源。相比之下,DinoV2通过使用可训练的学生-教师模型架构展示了强大的零样本性能,能够在不进行完全微调的情况下实现适应性调整。ExPLoRA方法被提出用于解决微调低效的问题,该方法结合了预训练权重与低秩自适应和额外更新来高效地将ViT适配到新的目标领域。这种方法在保持强大的特征提取和泛化能力的同时减少了存储需求。

实验结果集中在卫星影像上,重点展示了使用fMoW-RGB数据集的案例研究,达到了79.2%的最佳顶级准确率。消融研究表明了在各种配置下性能指标的表现。初始化为MAE和DinoV2权重的ExPLoRA模型,在仅利用ViT编码器6%参数的情况下,超越了传统的完全预训练方法。在多光谱图像和多种卫星数据集上的额外评估表明,ExPLoRA在弥合领域差距并取得竞争性性能方面有效。结果表明准确率有显著提升,展示了ExPLoRA在卫星影像分类任务中的潜力。

总之,ExPLoRA 是一种创新的预训练策略,旨在将预训练的 ViT 模型适应包括卫星和医学影像在内的多种视觉领域。ExPLoRA 通过从现有模型中进行有效的知识迁移,解决了从头开始预训练成本高昂的问题,并且在与特定领域的基础相比时,达到了更好的性能。该方法结合了 LoRA 等 PEFT 技术,同时最小化解冻模型层的数量,从而大大增强了迁移学习。实验结果显示,在卫星影像上取得了最先进的成果,线性探测准确率提高了高达 7.5%,并且使用了不到先前方法 10% 的参数。


查看一下纸张以及项目此研究的所有功劳归于该项目的研究人员。同时,别忘了关注我们官方微博和平台上的动态。推特并加入我们电报频道领英(LinkedIn)oup. 如果你喜欢我们的工作,你会爱上我们的Newsletter..不要忘了加入我们50k+ 机器学习子论坛

即将举行的活动 - 2022年10月17日 RetrieveX – 生成式人工智能数据检索大会(推广)

桑娜·哈桑是Marktechpost的咨询实习生,同时也是印度理工学院马德拉分校的双学位学生,她热衷于将技术和人工智能应用于解决现实世界中的挑战。她对解决实际问题有着浓厚的兴趣,并为人工智能与现实生活解决方案的交汇点带来了新的视角。

关于《斯坦福大学的研究人员提出ExPLoRA:一种有效的人工智能技术,用于改善预训练视觉变压器(ViT)在域转移情况下的迁移学习性能》
暂无评论

摘要

参数高效的微调(PEFT)方法,如低秩适应(LoRA),允许大型预训练基础模型使用原始可训练权重的很小一部分(0.1%-10%)来适应下游任务。通过用来自大型自然图像数据集(如DinoV2或MAE)的权重初始化ViT,ExPLoRA继续在新领域进行无监督预训练,并选择性地解除冻结1-2个ViT块,同时使用LoRA对剩余层进行调优。提出ExPLoRA方法是为了解决微调效率问题,结合了预训练权重、低秩适应和额外更新以高效地将ViTs适配到新的目标领域。消融研究评估了各种配置下的性能指标。如果您喜欢我们的工作,请订阅我们的通讯。别忘了加入我们拥有50k+ ML子Reddit社区。 [即将举行的活动-202年10月17日] RetrieveX – 生成AI数据检索大会(推广) Sana Hassan是Marktechpost的咨询实习生,同时也是印度理工学院马德拉斯分校的双学位学生,热衷于利用技术和人工智能解决现实世界的挑战。