作者:Jeremy Gray
苹果公司的机器学习研究团队创建了新的AI模型承诺在计算机视觉模型及其分析二维图像中的三维信息方面带来显著改进。
新的AI模型,作为报告的内容为VentureBeat称为Depth Pro,并在一篇新论文“中详细说明深度专家:一秒之内实现锐利的单目度量深度估算。”Depth Pro承诺能快速从单张二维图像创建复杂的三维深度图。论文摘要解释说,该模型可以使用消费级GPU在0.3秒内从一张图片生成2.25兆像素的深度图。
尽管像苹果最新款iPhone这样的设备可以使用内置传感器创建深度图,但大多数静态图像仍然没有附带的现实世界深度数据。然而,对于这些图像生成深度图在许多应用中都非常有益,包括常规图像编辑过程中。例如,如果有人只想编辑某个主体或将人工“镜头”模糊效果引入场景,深度图可以帮助软件创建精确的蒙版。深度图模型还可以帮助AI图像生成,因为对深度图有深刻理解可以有助于合成模型产生更逼真的结果。
苹果的研究人员——Aleksei Bochkovskii、Amaël Delaunoy、Hugo Germain、Marcel Santos、Yichao Zhou、Stephan R. Richter 和 Vladlen Koltun——解释说,一个有效的零样本度量单目深度估计模型必须迅速生成准确的高分辨率结果才有用。一个粗制滥造的深度图几乎没有价值。
“Depth Pro生成高分辨率的度量深度图,在亚秒级运行时间内提供高频细节。我们的模型在不需要相机内部参数等元数据的情况下,实现了最先进的零样本度量深度估计精度,并以前所未有的详细程度描绘了遮挡边界,便于从单张图像‘在野外’进行新颖视点合成等应用,”Apple研究者解释道。然而,该团队也承认了一些局限性,包括难以处理半透明表面和体积散射的问题。
作为VentureBeat解释了除了照片编辑和小说合成应用之外,深度图模型还可以在增强现实(AR)应用程序中证明其有用性,在这些应用程序中,虚拟对象必须准确地放置在物理空间内。Depth Pro 模型擅长处理相对深度和绝对深度,这对于许多应用场景来说至关重要。
人们可以在Hugging Face上亲自试用Depth Pro并通过阅读苹果的新文档来了解更多关于深度模型内部工作机制的内容。研究论文.
图片版权:苹果机器学习研究