作者:by University of Texas at Austin
德克萨斯大学奥斯汀分校的一组研究人员利用生成人工智能,将录音中的声音转换为街景图像。这些生成的图像的视觉准确性表明机器可以复制人类对环境的音频和视觉感知之间的联系。
在一个论文发表在计算机、环境和城市系统,研究团队描述了使用从各种城市和乡村街景收集的音频和视觉数据来训练声音景观到图像的人工智能模型,然后使用该模型生成图像录音。
“我们的研究发现声学环境包含足够的视觉线索德克萨斯大学地理与环境助理教授、该研究的合著者 Yuhao Kang 说:“生成高度可识别的街景图像,准确地描绘不同的地方。这意味着我们可以将声学环境转换为生动的视觉表征,有效地翻译声音变成景象。”
该团队利用来自北美、亚洲和欧洲城市的 YouTube 视频和音频,创建了来自不同地点的一对 10 秒音频剪辑和静态图像,并用它们来训练人工智能模型,该模型可以根据音频输入生成高分辨率图像。然后,他们通过人工和计算机评估,将由 100 个音频片段制作的人工智能声音到图像创作与各自的真实照片进行比较。
计算机评估比较了源图像和生成图像之间的绿色植物、建筑物和天空的相对比例,而人类评委则被要求将三个生成图像之一与音频样本正确匹配。
结果显示,生成的图像和真实世界图像之间的天空和绿色植物的比例具有很强的相关性,而建筑比例的相关性稍弱。人类参与者在选择与源音频样本相对应的生成图像时平均准确率为 80%。
“传统上,从声音想象场景的能力是人类独有的能力,反映了我们与外界的深层感官联系。环境。我们使用由大型语言模型(LLM)支持的先进人工智能技术表明机器有潜力接近人类的感官体验,”康说。
“这表明人工智能可以超越对物理环境的单纯识别,从而有可能丰富我们对不同地方的人类主观体验的理解。”
除了近似天空、绿色植物和建筑物的比例之外,生成的图像通常保持真实世界图像对应物的建筑风格和对象之间的距离,并准确反映音景是在晴天、阴天还是夜间照明条件下录制的。
作者指出,照明信息可能来自音景活动的变化。例如,交通声或夜间昆虫的鸣叫声可以揭示一天中的时间。这些观察进一步加深了对多感官因素如何影响我们对一个地方的体验的理解。
“当你闭上眼睛倾听时,周围的声音就会在你的脑海中描绘出画面,”康说。“例如,远处交通的嗡嗡声变成了熙熙攘攘的城市景观,而树叶轻柔的沙沙声将您带入宁静的森林。每种声音都在您想象的剧院中编织出一幅生动的场景挂毯,就像魔法一样。”
Kang 的工作重点是使用地理空间人工智能来研究人类与环境的相互作用。在另一个最近的论文发表于人文社会科学传播在这篇文章中,他和他的合著者研究了人工智能捕捉赋予城市独特身份的特征的潜力。
更多信息:Yonggai Zhuang 等人,从听觉到视觉:将听觉和视觉位置感知与音景到图像生成人工智能联系起来,计算机、环境和城市系统(2024)。DOI:10.1016/j.compenvurbsys.2024.102122
Kee Moon Jang 等人,地点身份:生成式人工智能的视角,人文社会科学传播(2024)。DOI:10.1057/s41599-024-03645-7
引文:使用人工智能将录音转化为准确的街道图像(2024 年,11 月 27 日)检索日期:2024 年 11 月 27 日来自 https://techxplore.com/news/2024-11-ai-accurate-street-images.html
本文档受版权保护。除了出于私人学习或研究目的的任何公平交易外,不得未经书面许可,不得复制部分内容。所提供的内容仅供参考。