作者:By Ben Coxworth
虽然已经有人工智能系统可以生成声音效果来匹配城市街道的无声图像(以及其他地方),一项实验性新技术的作用恰恰相反。它生成与街道录音相匹配的图像,并且具有惊人的准确性。
由助理开发。德克萨斯大学奥斯汀分校的 Yuhao Kang 教授及其同事在 10 秒视听剪辑数据集上训练了“声景到图像扩散模型”。
这些剪辑由静态图像和环境声音组成,这些图像和环境声音取自北美、亚洲和欧洲城市和乡村街道的 YouTube 视频。利用深度学习算法,系统不仅可以学习哪些声音对应于图像中的哪些项目,还可以学习哪些声音品质对应于哪些视觉环境。
训练完成后,系统的任务是仅根据录制的 100 个其他街景视频的环境声音生成图像 - 它为每个视频生成一张图像。
随后,一组人类评委将这些图像与其他街道的两张生成的图像一起展示,同时聆听该图像所基于的视频配乐。当他们被要求识别三张图像中哪一张对应于配乐时,他们的平均准确率为 80%。
更重要的是,当对生成的图像进行计算机分析时,发现它们的开阔天空、绿色植物和建筑物的相对比例与原始视频中的“强烈相关”。
事实上,在许多情况下,生成的图像还反映了源视频的光照条件,例如晴天、阴天或夜间的天空。这可能是由于夜间交通噪音减少或夜间昆虫的声音等因素造成的。
尽管该技术可以用于法医应用,例如粗略地了解录音的制作地点,但这项研究的目的更多是探索声音如何影响我们的地方感。
科学家们在一篇论文中指出:“研究结果可能会增强我们对视觉和听觉感知对人类心理健康影响的了解,可能会指导场所营造的城市设计实践,并可能改善社区的整体生活质量。”最近发表在杂志上自然。
来源:德克萨斯大学奥斯汀分校