NVIDIA 的这篇 AI 论文介绍了 NVLM 1.0:一系列具有改进的文本和图像处理能力的多模态大型语言模型 - MarkTechPost

2024-09-20 12:15:00 英文原文

多模态大语言模型 (MLLM) 专注于创建能够无缝解释文本和视觉数据的人工智能 (AI) 系统。这些模型旨在弥合自然语言理解和视觉理解之间的差距,使机器能够一致地处理从文本文档到图像的各种形式的输入。跨多种模式的理解和推理变得至关重要,尤其是随着人工智能在图像识别、自然语言处理和计算机视觉等领域迈向更复杂的应用。通过改进人工智能集成和处理不同数据源的方式,MLLM 将彻底改变图像字幕、文档理解和交互式人工智能系统等任务。

开发 MLLM 的一个重大挑战是确保它们在以下方面同样表现出色:基于文本和视觉语言的任务。通常,一个领域的进步可能会导致另一领域的下降。例如,增强模型的视觉理解能力可能会对其语言能力产生负面影响,这对于需要两者的应用程序(例如光学字符识别(OCR)或复杂的多模态推理)来说是有问题的。关键问题是平衡处理视觉数据(如高分辨率图像)和保持强大的文本推理。随着人工智能应用变得更加先进,这种权衡成为多模式人工智能模型进展的关键瓶颈。

现有的 MLLM 方法,包括 GPT-4V 和 InternVL 等模型,都试图解决这个问题使用各种架构技术的问题。这些模型在训练期间冻结语言模型,或采用交叉注意机制来同时处理图像和文本标记。然而,这些方法并非没有缺陷。在多模式训练期间冻结语言模型通常会导致视觉语言任务的性能较差。相比之下,LLaVA-OneVision 和 InternVL 等开放访问模型在多模式训练后纯文本性能明显下降。这反映了该领域一个长期存在的问题,即一种模态的进步是以另一种模态为代价的。

NVIDIA 的研究人员推出了 NVLM 1.0 模型,代表了多模态语言建模的重大飞跃。NVLM 1.0 系列由三种主要架构组成:NVLM-D、NVLM-X 和 NVLM-H。这些模型中的每一个都通过将先进的多模式推理功能与高效的文本处理相结合来解决现有方法的缺点。NVLM 1.0 的一个值得注意的功能是在训练期间包含高质量的纯文本监督微调 (SFT) 数据,这使得这些模型能够保持甚至提高其纯文本性能,同时在视觉语言任务中表现出色。研究团队强调,他们的方法旨在超越 GPT-4V 等现有专有模型和 InternVL 等开放访问替代方案。

NVLM 1.0 模型采用混合架构来平衡文本和图像处理。NVLM-D 是纯解码器模型,以统一的方式处理两种模态,使其特别擅长多模态推理任务。另一方面,NVLM-X 是使用交叉注意力机制构建的,可以提高处理高分辨率图像时的计算效率。混合模型 NVLM-H 结合了两种方法的优点,允许更详细的图像理解,同时保留文本推理所需的效率。这些模型结合了高分辨率照片的动态平铺,显着提高了 OCR 相关任务的性能,而无需牺牲推理能力。集成一维图块标记系统可以实现精确的图像标记处理,从而提高文档理解和场景文本阅读等任务的性能。

在性能方面,NVLM 1.0 模型在多个基准测试中取得了令人印象深刻的结果。例如,在 MATH 和 GSM8K 等纯文本任务上,由于在训练期间集成了高质量的文本数据集,NVLM-D1.0 72B 模型比纯文本主干模型提高了 4.3 点。这些模型还表现出了强大的视觉语言性能,在视觉问答和推理任务中,VQAv2 数据集上的准确度分数为 93.6%,AI2D 上的准确度分数为 87.4%。在 OCR 相关任务中,NVLM 模型显着优于现有系统,在 DocVQA 上得分为 87.4%,在 ChartQA 上得分为 81.7%,凸显了它们处理复杂视觉信息的能力。这些结果是通过 NVLM-X 和 NVLM-H 模型实现的,它们展示了对高分辨率图像和多模态数据的卓越处理。

该研究的主要发现之一是 NVLM 模型不仅不仅在视觉语言任务中表现出色,而且还保持或提高了纯文本性能,这是其他多模态模型难以实现的。例如,在 MMLU 等基于文本的推理任务中,NVLM 模型保持了高精度水平,甚至在某些情况下超过了纯文本推理任务。这对于需要强大的文本理解和视觉数据处理的应用程序(例如文档分析和图像文本推理)尤其重要。尤其是NVLM-H模型,在图像处理效率和多模态推理精度之间取得了平衡,使其成为该领域最有前途的模型之一。

综上所述,研究人员开发的NVLM 1.0模型NVIDIA 代表了多模式大语言模型的重大突破。通过将高质量文本数据集集成到多模式训练中,并采用高分辨率图像的动态平铺和平铺标记等创新架构设计,这些模型解决了在不牺牲性能的情况下平衡文本和图像处理的关键挑战。NVLM 系列模型不仅在视觉语言任务中优于领先的专有系统,而且还保持了卓越的纯文本推理能力,标志着多模态人工智能系统开发的新前沿。

查看论文。这项研究的所有功劳都归功于该项目的研究人员。另外,不要忘记在 Twitter 上关注我们并加入我们的 Telegram 频道和 LinkedIn 群组。如果您喜欢我们的工作,您一定会喜欢我们的时事通讯。

不要忘记加入我们的 50k+ ML SubReddit

Nikhil 是 Marktechpost 的实习顾问。他正在印度理工学院卡拉格普尔分校攻读材料综合双学位。Nikhil 是一位 AI/ML 爱好者,一直在研究生物材料和生物医学等领域的应用。凭借深厚的材料科学背景,他正在探索新的进步并创造做出贡献的机会。

摘要

多模态大语言模型 (MLLM) 专注于创建能够无缝解释文本和视觉数据的人工智能 (AI) 系统。例如,在 MATH 和 GSM8K 等纯文本任务上,由于在训练期间集成了高质量的文本数据集,NVLM-D1.0 72B 模型比纯文本主干模型提高了 4.3 点。NVLM系列模型不仅在视觉语言任务中优于领先的专有系统,而且还保持了卓越的纯文本推理能力,标志着多模态人工智能系统开发的新前沿。他正在印度理工学院卡拉格普尔分校攻读材料综合双学位。凭借深厚的材料科学背景,他正在探索新的进步并创造贡献的机会。