AI了解视力和声音如何连接,而无需人工干预
2025-05-22 04:00:00
麻省理工学院和其他机构的研究人员开发了一种改进的AI模型,可以学会从没有人类标签的视频剪辑中与相应的音频和视觉数据保持一致。这种新方法增强了一种称为Cav-Mae Sync的模型,该模型在处理前将音频分配到较小的窗口中,从而使系统能够为每个音频的每个窗口生成单独的表示形式,并将一个视频框架与其相应的音频相关联。研究人员还引入了建筑变化,有助于平衡两个学习目标:对比度和重建性。这些改进提高了视频检索任务中的性能,并在视听场景中对动作进行了分类。未来的应用可能包括对现实世界环境,新闻业,电影制作的更好理解,并将视听技术整合到日常使用工具中,例如大语言模型。