人类自然会通过在视觉和声音之间建立联系来学习。例如,我们可以看着有人在演奏大提琴,并认识到大提琴家的动作正在产生我们听到的音乐。
麻省理工学院和其他地方的研究人员开发的一种新方法提高了AI模型以这种方式学习的能力。这在新闻和电影制作等应用程序中可能很有用,该应用程序可以通过自动视频和音频检索来帮助策划多模式内容。
从长远来看,这项工作可用于提高机器人理解现实环境的能力,在这些环境中,听觉和视觉信息通常密切相关。
研究人员改善了他们小组的先前工作,创建了一种方法,可以帮助机器学习模型将相应的音频和视频剪辑的视觉数据对齐而无需人类标签。
他们调整了原始模型的训练方式,因此它在特定的视频框架和那一刻发生的音频之间学习了更细粒度的对应关系。研究人员还进行了一些架构调整,以帮助系统平衡两个不同的学习目标,从而提高了性能。
综上所述,这些相对简单的改进提高了他们在视频检索任务中的方法的准确性,并在视听场景中对动作进行了分类。例如,新方法可以自动而精确地匹配门的声音,并在视频剪辑中闭合它的视觉效果。
``我们正在建立可以像人类一样处理世界的AI系统,即同时同时出现音频和视觉信息并能够无缝处理这两种方式。展望未来,如果我们可以将这种视听技术集成到我们每天使用的某些工具中,例如大型语言模型,它可以打开许多新应用程序,” MIT研究生兼合着者Andrew Rouditchenko说。有关这项研究的论文。
首席作家埃德森·阿劳乔(Edson Araujo)在德国歌德大学的研究生埃德森·阿劳霍(Edson Araujo)加入了纸上;Yuan Gong,前麻省理工学院博士后;Saurabhchand Bhati,现任麻省理工学院博士后;IBM Research的Samuel Thomas,Brian Kingsbury和Leonid Karlinsky;MIT-IBM Watson AI实验室的首席科学家兼经理Rogerio Feris;麻省理工学院计算机科学和人工智能实验室(CSAIL)的高级研究科学家兼口语系统小组负责人詹姆斯·格拉斯(James Glass);歌德大学计算机科学教授,MIT-IBM Watson AI实验室的分支机构教授,以及高级作家Hilde Kuehne。这项工作将在计算机视觉和模式识别会议上介绍。
同步
这项工作以机器学习方法为基础研究人员发展了几年前,这提供了一种有效的方法来训练多模式模型,以同时处理音频和视觉数据而无需人类标签。
研究人员将这个模型(称为Cav-Mae,未标记的视频剪辑)喂养,并将视觉和音频数据分别编码为称为令牌的表示。使用录制中的天然音频,该模型会自动学习以在其内部表示空间中映射相应的音频和视觉令牌对。
他们发现,使用两个学习目标平衡了模型的学习过程,这使Cav-Mae能够理解相应的音频和视觉数据,同时提高其恢复匹配用户查询的视频剪辑的能力。
但是Cav-Mae将音频和视觉示例视为一个单元,因此,即使在视频的一秒钟内发生了一个音频事件,也将10秒的视频剪辑绘制在一起。
在其改进的模型(称为Cav-Mae Sync)中,研究人员将音频分为较小的窗口,然后该模型计算数据的表示形式,因此它生成了与每个较小音频窗口相对应的单独表示形式。
在培训期间,该模型学会将一个视频框架与仅在该框架中发生的音频相关联。
Araujo说,通过这样做,该模型学习了一个更细粒度的通信,当我们汇总此信息时,该模型在以后的性能中有助于。” Araujo说。
他们还结合了建筑改进,可帮助模型平衡其两个学习目标。
添加Wiggle Room
该模型结合了一个对比目标,它在其中学会了将相似的音频和视觉数据关联,以及一个旨在根据用户查询恢复特定音频和视觉数据的重建目标。
在Cav-Mae Sync中,研究人员介绍了两种新型的数据表示或令牌,以提高模型的学习能力。
它们包括专门的全球代币,这些代币有助于实现对比度学习目标和专用“注册令牌”,以帮助该模型关注重建目标的重要细节。
从本质上讲,我们为模型添加了更多的摆动空间,因此它可以执行这两个任务中的每一个,即对比度和重建性,更独立。Araujo补充说,这使整体表现受益。
尽管研究人员有一些直觉,但这些增强能力将提高Cav-Mae Sync的性能,但仔细组合了策略来将模型转移到他们希望它的方向上。
``因为我们有多种方式,我们需要一个很好的模型,可以单独用于两种模式,但我们还需要让它们融合在一起并进行协作。” Rouditchenko说。
最后,他们的增强功能提高了模型的基于音频查询的视频的能力,并预测了视听场景的类别,例如狗吠叫或乐器播放。
它的结果比以前的工作更准确,而且它的性能也比需要大量培训数据的更复杂的最先进方法更好。
Araujo说,有时候,当您正在使用的模型之上时,您在数据中看到的非常简单的想法或很少的模式具有很高的价值。”
将来,研究人员希望将新的模型纳入将更好的数据表示形式纳入Cav-Mae Sync,从而可以提高性能。他们还希望使他们的系统处理文本数据,这将是生成视听大语模型的重要一步。
这项工作部分由德国联邦教育和研究部以及MIT-IBM Watson AI实验室资助。