苹果的新AI模型能在不到一秒钟的时间内从2D图像生成3D深度地图

2024-10-07 21:17:42 英文原文

作者:Jeremy Gray

Four images show a rabbit and a cat with different backgrounds. Each has corresponding thermal images, highlighting specific areas with boxes. The top left image has a rabbit on grass, and the top right shows a fluffy cat indoors.

苹果公司的机器学习研究团队创建了新的AI模型承诺在计算机视觉模型及其分析二维图像中的三维信息方面带来显著改进。

新的AI模型,作为报告的内容为VentureBeat称为Depth Pro,并在一篇新论文“中详细说明深度专家:一秒之内实现锐利的单目度量深度估算。”Depth Pro承诺能快速从单张二维图像创建复杂的三维深度图。论文摘要解释说,该模型可以使用消费级GPU在0.3秒内从一张图片生成2.25兆像素的深度图。

尽管像苹果最新款iPhone这样的设备可以使用内置传感器创建深度图,但大多数静态图像仍然没有附带的现实世界深度数据。然而,对于这些图像生成深度图在许多应用中都非常有益,包括常规图像编辑过程中。例如,如果有人只想编辑某个主体或将人工“镜头”模糊效果引入场景,深度图可以帮助软件创建精确的蒙版。深度图模型还可以帮助AI图像生成,因为对深度图有深刻理解可以有助于合成模型产生更逼真的结果。

A grid of images shows various objects: a rabbit, baskets, and a cat. Each row displays the original on the left, followed by depth maps using different techniques like Depth Pro, Manifold, Depth Anything V2, and Midas3D V2, highlighting varied depth perceptions.
苹果的Depth Pro模型与竞争的深度图模型。| 来源:Apple Machine Learning Research

苹果的研究人员——Aleksei Bochkovskii、Amaël Delaunoy、Hugo Germain、Marcel Santos、Yichao Zhou、Stephan R. Richter 和 Vladlen Koltun——解释说,一个有效的零样本度量单目深度估计模型必须迅速生成准确的高分辨率结果才有用。一个粗制滥造的深度图几乎没有价值。

“Depth Pro生成高分辨率的度量深度图,在亚秒级运行时间内提供高频细节。我们的模型在不需要相机内部参数等元数据的情况下,实现了最先进的零样本度量深度估计精度,并以前所未有的详细程度描绘了遮挡边界,便于从单张图像‘在野外’进行新颖视点合成等应用,”Apple研究者解释道。然而,该团队也承认了一些局限性,包括难以处理半透明表面和体积散射的问题。

A split image showing a grayscale photo of a geometric footbridge over a garden with a small house in the background on the left, and a colorful depth map of the same scene on the right.
示例照片的图片提供者:Jeremy Gray
A vibrant sunset over a rocky landscape with scattered vegetation on the left. A depth map visual with a color gradient from purple to green is on the right.
示例照片版权信息:Jeremy Gray

作为VentureBeat解释了除了照片编辑和小说合成应用之外,深度图模型还可以在增强现实(AR)应用程序中证明其有用性,在这些应用程序中,虚拟对象必须准确地放置在物理空间内。Depth Pro 模型擅长处理相对深度和绝对深度,这对于许多应用场景来说至关重要。

人们可以在Hugging Face上亲自试用Depth Pro并通过阅读苹果的新文档来了解更多关于深度模型内部工作机制的内容。研究论文.


图片版权:苹果机器学习研究

关于《苹果的新AI模型能在不到一秒钟的时间内从2D图像生成3D深度地图》
暂无评论

摘要

苹果的机器学习研究团队创建了一个新的AI模型,该模型在计算机视觉模型及其如何分析二维图像中的三维信息方面承诺会有显著改进。然而,对于这些图像的深度图可以为许多应用带来巨大的好处,包括常规图像编辑过程中。我们的Depth Pro模型与其他深度图模型相比。我们的模型无需诸如相机内部参数之类的元数据即可实现最先进的零样本度量深度估计精度,并以前所未有的细节描绘遮挡边界,从而促进从单张“野外”图像生成新颖视图的应用。“苹果研究人员解释说。图片提供:苹果机器学习研究团队