作者:Ecole Polytechnique Federale de Lausanne
EPFL 研究人员开发了 4M,这是一种下一代开源框架,用于训练超越语言的多功能且可扩展的多模式基础模型。
OpenAI 的 ChatGPT 等大型语言模型已经改变了我们许多人执行某些日常任务的方式。这些生成式人工智能聊天机器人接受了语言训练——从互联网上“抓取”了数百 TB 的文本,并包含数十亿个参数。
展望未来,许多人认为驱动生成人工智能的“引擎”将是多模态模型,这些模型不仅可以接受文本训练,还可以处理各种其他形式的信息,包括图像、视频、声音以及来自其他领域(例如生物领域)的模态。或大气数据。
然而,直到最近,训练单一模型来处理各种模式(输入)和任务(输出)仍面临重大挑战。例如,与单任务模型相比,训练通常会导致性能下降,并且通常需要谨慎的策略来减少质量损失并最大限度地提高准确性。
此外,根据不同的模式(或输入)(例如变化很大的语言、图像或视频)训练一个网络,会带来额外的复杂性,并且模型常常会错误地忽略某些模式中的基本信息。
在加利福尼亚州苹果公司的支持下开展的一个多年项目中,洛桑联邦理工学院计算机与通信科学学院 (IC) 视觉智能和学习实验室 (VILAB) 的研究人员开发了 4M,用于大规模掩模多模态建模,这是世界上最先进的单一神经网络,可处理广泛多样的任务和模式。
在他们于 12 月发表的关于 4M 的最新研究论文中,神经IPS 2024在神经信息处理系统年会上,研究人员描述了它如何以多种方式扩展现有模型的功能。该研究是发表在arXiv预印本服务器。
“有了 4M,我们现在拥有了一个丰富的模型,不仅可以解释语言。但这为什么重要?对法学硕士的一个常见批评是,他们的知识没有根据,因为训练数据仅限于语言,”助理教授解释道阿米尔·扎米尔 (Amir Zamir),VILAB 负责人。
“当我们进行多模态建模时,我们不必将自己限制在语言上。我们引入了其他模态,包括传感器。例如,我们可以通过“橙色”一词来传达橙色,就像在语言模型中一样,但是还可以通过像素的集合,即橙色的外观,或通过触觉,捕捉触摸橙色的感觉。
“如果你组合各种模式,你就能更完整地概括我们正在尝试建模的物理现实,”他继续说道。
尽管取得了这些令人印象深刻的进步,扎米尔表示 4M 的发展提出了一些有趣的挑战,包括该模型没有开发出跨模式的真正统一的表示,对于原因他有自己的理论。
“我们认为,在幕后,这些模型秘密地作弊并创建了一些独立模型的集合。一组参数解决一个问题,另一组参数解决另一个问题,总的来说,它们似乎解决了整个问题。但它们并没有真正统一他们的知识,从而能够对环境进行紧凑的联合表示,而这将成为通向世界的良好门户。”
VILAB 团队正在继续致力于在 4M 中构建更多的结构和统一,目标是开发一个开源,通用架构,使其他领域的专家能够适应其特定需求,例如气候建模或生物医学研究。该团队还致力于解决其他重要方面,例如进一步提高可扩展性以及将模型专业化到部署环境的方法。
“开源的全部意义在于,人们可以使用自己的数据和自己的规范来定制模型。4M 来得正是时候,我们特别热衷于其他领域采用这种建模方式。我们很高兴看到这会带来什么结果,但仍然存在很多挑战,还有很多工作要做。”VILAB 博士助理、该报告的合著者 Oguzhan Fatih Kar 和 Roman Bachmann 说道。纸。
根据团队开发 4M 的经验以及他们继续研究的有趣问题,Zamir 认为围绕基础模型的未来发展存在一些有趣的问题。
“作为人类,我们有五种关键感官,最重要的是,我们可以有效地学习语言,这为已经基于这些其他感官的知识添加了标签和结构。这与当前的人工智能相反——我们有语言模型无需感知世界,但使用大量数据和计算资源进行训练。
“我们的目标是研究多模态的作用,并有效地开发一个可有效用于下游用途的接地世界模型。”
更多信息:Roman Bachmann 等人,4M-21:适用于数十种任务和模式的任意视觉模型,arXiv(2024)。DOI:10.48550/arxiv.2406.09406
引文:开源框架超越语言,增强多模式人工智能训练能力(2025年1月7日)检索日期:2025 年 1 月 8 日来自 https://techxplore.com/news/2025-01-source-framework-language-multimodal-ai.html
本文档受版权保护。除了出于私人学习或研究目的的任何公平交易外,不得未经书面许可,不得复制部分内容。所提供的内容仅供参考。