开源框架超越语言，增强多模式人工智能训练能力

2025-01-07 17:44:24 英文原文

作者：Ecole Polytechnique Federale de Lausanne

An open-source training framework to advance multimodal AI — 通过多种形态的镜头看到的几个橙子，每一片都显示出人们感知和理解这一场景的不同方式。图片来源：EPFL，CC-BY-SA 4.0

EPFL 研究人员开发了 4M，这是一种下一代开源框架，用于训练超越语言的多功能且可扩展的多模式基础模型。

OpenAI 的 ChatGPT 等大型语言模型已经改变了我们许多人执行某些日常任务的方式。这些生成式人工智能聊天机器人接受了语言训练——从互联网上“抓取”了数百 TB 的文本，并包含数十亿个参数。

展望未来，许多人认为驱动生成人工智能的“引擎”将是多模态模型，这些模型不仅可以接受文本训练，还可以处理各种其他形式的信息，包括图像、视频、声音以及来自其他领域（例如生物领域）的模态。或大气数据。

然而，直到最近，训练单一模型来处理各种模式（输入）和任务（输出）仍面临重大挑战。例如，与单任务模型相比，训练通常会导致性能下降，并且通常需要谨慎的策略来减少质量损失并最大限度地提高准确性。

此外，根据不同的模式（或输入）（例如变化很大的语言、图像或视频）训练一个网络，会带来额外的复杂性，并且模型常常会错误地忽略某些模式中的基本信息。

介绍视频。图片来源：4M 项目

多模态建模

在加利福尼亚州苹果公司的支持下开展的一个多年项目中，洛桑联邦理工学院计算机与通信科学学院 (IC) 视觉智能和学习实验室 (VILAB) 的研究人员开发了 4M，用于大规模掩模多模态建模，这是世界上最先进的单一神经网络，可处理广泛多样的任务和模式。

在他们于 12 月发表的关于 4M 的最新研究论文中，神经IPS 2024在神经信息处理系统年会上，研究人员描述了它如何以多种方式扩展现有模型的功能。该研究是发表在arXiv预印本服务器。

“有了 4M，我们现在拥有了一个丰富的模型，不仅可以解释语言。但这为什么重要？对法学硕士的一个常见批评是，他们的知识没有根据，因为训练数据仅限于语言，”助理教授解释道阿米尔·扎米尔 (Amir Zamir)，VILAB 负责人。

“当我们进行多模态建模时，我们不必将自己限制在语言上。我们引入了其他模态，包括传感器。例如，我们可以通过“橙色”一词来传达橙色，就像在语言模型中一样，但是还可以通过像素的集合，即橙色的外观，或通过触觉，捕捉触摸橙色的感觉。

“如果你组合各种模式，你就能更完整地概括我们正在尝试建模的物理现实，”他继续说道。

走向广泛使用的开源通用模型

尽管取得了这些令人印象深刻的进步，扎米尔表示 4M 的发展提出了一些有趣的挑战，包括该模型没有开发出跨模式的真正统一的表示，对于原因他有自己的理论。

“我们认为，在幕后，这些模型秘密地作弊并创建了一些独立模型的集合。一组参数解决一个问题，另一组参数解决另一个问题，总的来说，它们似乎解决了整个问题。但它们并没有真正统一他们的知识，从而能够对环境进行紧凑的联合表示，而这将成为通向世界的良好门户。”

VILAB 团队正在继续致力于在 4M 中构建更多的结构和统一，目标是开发一个开源，通用架构，使其他领域的专家能够适应其特定需求，例如气候建模或生物医学研究。该团队还致力于解决其他重要方面，例如进一步提高可扩展性以及将模型专业化到部署环境的方法。

“开源的全部意义在于，人们可以使用自己的数据和自己的规范来定制模型。4M 来得正是时候，我们特别热衷于其他领域采用这种建模方式。我们很高兴看到这会带来什么结果，但仍然存在很多挑战，还有很多工作要做。”VILAB 博士助理、该报告的合著者 Oguzhan Fatih Kar 和 Roman Bachmann 说道。纸。

根据团队开发 4M 的经验以及他们继续研究的有趣问题，Zamir 认为围绕基础模型的未来发展存在一些有趣的问题。

“作为人类，我们有五种关键感官，最重要的是，我们可以有效地学习语言，这为已经基于这些其他感官的知识添加了标签和结构。这与当前的人工智能相反——我们有语言模型无需感知世界，但使用大量数据和计算资源进行训练。

“我们的目标是研究多模态的作用，并有效地开发一个可有效用于下游用途的接地世界模型。”

更多信息：Roman Bachmann 等人，4M-21：适用于数十种任务和模式的任意视觉模型，arXiv（2024）。DOI：10.48550/arxiv.2406.09406

引文：开源框架超越语言，增强多模式人工智能训练能力（2025年1月7日）检索日期：2025 年 1 月 8 日来自 https://techxplore.com/news/2025-01-source-framework-language-multimodal-ai.html

本文档受版权保护。除了出于私人学习或研究目的的任何公平交易外，不得未经书面许可，不得复制部分内容。所提供的内容仅供参考。

关于《开源框架超越语言，增强多模式人工智能训练能力》的评论

暂无评论

发表评论

摘要

EPFL 的研究人员开发了 4M，这是一个开源框架，用于训练超越语言处理的多功能且可扩展的多模式基础模型。该框架解决了将图像、视频和传感数据等各种模式集成到单个模型中的挑战。4M 模型旨在通过整合多种感官来更全面地理解物理现实，从而有可能推进气候建模和生物医学研究等领域的应用。尽管取得了进步，该团队仍在继续努力实现不同模式的真正统一，以实现更广泛的采用和定制。

开源框架超越语言，增强多模式人工智能训练能力

多模态建模

走向广泛使用的开源通用模型

关于《开源框架超越语言，增强多模式人工智能训练能力》的评论

发表评论

摘要

相关新闻

相关讨论