北京人工智能研究院展示新多模态模型性能优异

2024-10-21 12:30:12 英文原文

中国官方支持的北京人工智能研究院(BAI)于周一发布了一种多用途的人工智能一个能够理解文本、图像和视频的模型,使其成为首批推出多模态模型的中国公司之一,旨在缩小与美国领先公司的差距。

随着中国人工智能初创企业试图克服高级芯片访问受限和与美国相比资本有限的问题,国内行业一直在努力跟上像OpenAI和谷歌这样的行业领导者快速发展的模型。北京智源人工智能研究院是一家非营利机构,旨在帮助中国的AI社区提升能力。

BAI最新一代的Emu3多模态模型使用了一种简单的架构设计,以训练模型理解图片并生成视频片段,该组织周一在北京的一次活动上表示。与只能处理一种类型输入数据的传统模型不同,多模态模型旨在理解和处理如文本、视频和音频等多种类型的输入数据。

Wang Zhongyuan, head of the Beijing Academy of Artificial Intelligence (BAAI), speaks at the annual BAAI Conference on June 14, 2024. Photo: Ben Jiang

王中元,北京人工智能研究院(BAAI)院长,在2024年6月14日的年度BAAI会议上发言。照片:江滨

王仲远,北京人工智能研究院(又称智源研究院)的负责人表示,新的模型是该六岁机构近年来“最大的技术贡献”。

Emu3 采用了一种统一的AI架构,将文本、图像和视频片段转化为一串令牌的混合体,用于预训练单一模型。一个令牌是AI模型可以处理的数据最小单位——例如单词、图像的一部分或视频帧。

这种方法去除了结合特定任务模型来处理不同类型数据的必要性,使通用AI模型的训练变得更加简单和高效。

BAI表示,Emu3在理解和生成图像方面优于一些成熟的特定任务模型,例如图像生成模型Stable Diffusion XL和多模态模型LLaVA。

关于《北京人工智能研究院展示新多模态模型性能优异》
暂无评论

摘要

中国官方支持的北京人工智能研究院(BAAI)于周一发布了一种能够理解文本、图像和视频的多功能AI模型,成为首批在中国推出多模态模型的企业之一,此举旨在缩小与美国领先企业的差距。BAAI是一个非营利机构,致力于帮助中国的AI社区提升能力。图片:Ben Jiang BAAI院长王仲远表示,这款新模型是该成立六年的组织“近年来最大的技术贡献”。令牌是最小的数据单位——例如词语、图像的组成部分或视频帧——AI模型可以处理这些数据单位。这种方法消除了结合特定任务模型以处理不同类型数据的需求,使多功能AI模型的训练更为简单和高效。