北京人工智能研究院展示新多模态模型性能优异

中国官方支持的北京人工智能研究院（BAI）于周一发布了一种多用途的人工智能一个能够理解文本、图像和视频的模型，使其成为首批推出多模态模型的中国公司之一，旨在缩小与美国领先公司的差距。

随着中国人工智能初创企业试图克服高级芯片访问受限和与美国相比资本有限的问题，国内行业一直在努力跟上像OpenAI和谷歌这样的行业领导者快速发展的模型。北京智源人工智能研究院是一家非营利机构，旨在帮助中国的AI社区提升能力。

BAI最新一代的Emu3多模态模型使用了一种简单的架构设计，以训练模型理解图片并生成视频片段，该组织周一在北京的一次活动上表示。与只能处理一种类型输入数据的传统模型不同，多模态模型旨在理解和处理如文本、视频和音频等多种类型的输入数据。

王仲远，北京人工智能研究院（又称智源研究院）的负责人表示，新的模型是该六岁机构近年来“最大的技术贡献”。

Emu3 采用了一种统一的AI架构，将文本、图像和视频片段转化为一串令牌的混合体，用于预训练单一模型。一个令牌是AI模型可以处理的数据最小单位——例如单词、图像的一部分或视频帧。

这种方法去除了结合特定任务模型来处理不同类型数据的必要性，使通用AI模型的训练变得更加简单和高效。

BAI表示，Emu3在理解和生成图像方面优于一些成熟的特定任务模型，例如图像生成模型Stable Diffusion XL和多模态模型LLaVA。

OC