人工智能通过聆听配乐来生成准确的街道图像

2024-12-02 20:30:08 英文原文

作者：By Ben Coxworth

虽然已经有人工智能系统可以生成声音效果来匹配城市街道的无声图像（以及其他地方），一项实验性新技术的作用恰恰相反。它生成与街道录音相匹配的图像，并且具有惊人的准确性。

由助理开发。德克萨斯大学奥斯汀分校的 Yuhao Kang 教授及其同事在 10 秒视听剪辑数据集上训练了“声景到图像扩散模型”。

这些剪辑由静态图像和环境声音组成，这些图像和环境声音取自北美、亚洲和欧洲城市和乡村街道的 YouTube 视频。利用深度学习算法，系统不仅可以学习哪些声音对应于图像中的哪些项目，还可以学习哪些声音品质对应于哪些视觉环境。

训练完成后，系统的任务是仅根据录制的 100 个其他街景视频的环境声音生成图像 - 它为每个视频生成一张图像。

Examples of some of the AI-generated street images as compared to video stills of the actual streets — 一些人工智能生成的街道图像与实际街道的视频静态对比的示例

随后，一组人类评委将这些图像与其他街道的两张生成的图像一起展示，同时聆听该图像所基于的视频配乐。当他们被要求识别三张图像中哪一张对应于配乐时，他们的平均准确率为 80%。

更重要的是，当对生成的图像进行计算机分析时，发现它们的开阔天空、绿色植物和建筑物的相对比例与原始视频中的“强烈相关”。

事实上，在许多情况下，生成的图像还反映了源视频的光照条件，例如晴天、阴天或夜间的天空。这可能是由于夜间交通噪音减少或夜间昆虫的声音等因素造成的。

尽管该技术可以用于法医应用，例如粗略地了解录音的制作地点，但这项研究的目的更多是探索声音如何影响我们的地方感。

科学家们在一篇论文中指出：“研究结果可能会增强我们对视觉和听觉感知对人类心理健康影响的了解，可能会指导场所营造的城市设计实践，并可能改善社区的整体生活质量。”最近发表在杂志上自然。

来源：德克萨斯大学奥斯汀分校

关于《人工智能通过聆听配乐来生成准确的街道图像》的评论

暂无评论

发表评论

摘要

德克萨斯大学奥斯汀分校的研究人员开发了一种“声景到图像扩散模型”，可以根据街道录音高精度生成图像。该模型使用北美、亚洲和欧洲 YouTube 视频中的 10 秒视听剪辑进行训练。它学会了将声音与视觉元素和环境联系起来。测试时，人类评委能够以平均 80% 的速度识别出与配乐相对应的正确图像，而计算机分析显示生成的图像与原始视频之间的建筑特征和照明条件具有很强的相关性。该研究旨在探索声音如何影响我们的地方感，以及如何对城市设计和心理健康产生影响。

人工智能通过聆听配乐来生成准确的街道图像

关于《人工智能通过聆听配乐来生成准确的街道图像》的评论

发表评论

摘要

相关新闻

相关讨论