苹果发布Depth Pro，重写3D视觉规则的AI模型 - 创客网

2024-10-04 18:52:31 英文原文

加入我们的每日和每周时事通讯，了解有关行业领先人工智能报道的最新更新和独家内容。了解更多

苹果人工智能研究团队开发了一种新模型，可以显着提高机器感知深度的方式，有可能改变从增强现实到自动驾驶汽车等行业。

该系统称为 DepthPro 能够在不到一秒的时间内从单个 2D 图像生成详细的 3D 深度图，而无需依赖传统上进行此类预测所需的相机数据。

该技术在题为 Depth Pro 的研究论文中进行了详细介绍。：在不到一秒的时间内获得清晰的单目公制深度，是单目深度估计领域的重大飞跃，该过程仅使用一张图像来推断深度。

这可能会在各个领域产生深远的应用实时空间感知至关重要的领域。由 Aleksei Bochkovskii 和 Vladlen Koltun 领导的模型创建者将 Depth Pro 描述为同类中最快、最准确的系统之一。

速度和精度，无需元数据

单目深度估计长期以来一直是一项具有挑战性的任务，需要多个图像或焦距等元数据来准确测量深度。

但 Depth Pro 绕过了这些要求，在标准上仅需 0.3 秒即可生成高分辨率深度图图形处理器。该模型可以创建具有卓越清晰度的 2.25 兆像素地图，甚至可以捕获其他方法经常忽略的微小细节，例如头发和植被。

这些特性是通过许多技术贡献实现的，包括高效的多研究人员在论文中解释说，用于密集预测的尺度视觉变换器。这种架构允许模型同时处理图像的整体背景及其更精细的细节，这是与之前速度较慢、精度较低的模型相比的巨大飞跃。

度量深度，零样本学习

真正让 Depth Pro 与众不同的是它能够估计相对和绝对深度，这种功能称为公制深度。

这意味着该模型可以提供真实世界的测量结果，这对于应用程序至关重要例如增强现实 (AR)，需要将虚拟对象放置在物理空间内的精确位置。

Depth Pro 不需要对特定领域的数据集进行大量训练即可做出准确的预测（称为零样本的功能）学习。这使得该模型具有高度的通用性。它可以应用于广泛的图像，而不需要深度估计模型中通常需要的特定于相机的数据。

Depth Pro 可以在野外的任意图像上生成具有绝对比例的公制深度图，而无需作者解释说，需要相机内部参数等元数据。这种灵活性开启了一个充满可能性的世界，从增强 AR 体验到提高自动驾驶汽车检测和导航障碍物的能力。

对于那些想第一时间体验 Depth Pro 的人来说，Hugging Face 平台上提供了现场演示.

实际应用：从电子商务到自动驾驶汽车

这种多功能性对各个行业都有重大影响。例如，在电子商务中，Depth Pro 可以让消费者只需将手机摄像头对准房间即可了解家具是否适合他们的家。在汽车行业，从单个摄像头生成实时、高分辨率深度图的能力可以改善自动驾驶汽车感知环境的方式，从而提高导航和安全性。

理想情况下，该方法应该产生研究人员写道，在这种零镜头状态下使用公制深度图来准确地再现物体形状、场景布局和绝对比例，并强调了该模型有可能减少与训练更传统的人工智能模型相关的时间和成本。

应对深度估计的挑战

深度估计中最严峻的挑战之一是处理所谓的飞行像素，由于深度映射的错误，这些像素似乎漂浮在半空中。Depth Pro 正面解决了这个问题，使其对于 3D 重建和虚拟环境等精度至关重要的应用特别有效。

此外，Depth Pro 在边界追踪方面表现出色，在清晰描绘对象方面优于以前的模型和它们的边缘。研究人员声称，它在边界精度方面超越了其他系统，这对于需要精确对象分割的应用程序（例如图像抠图和医学成像）至关重要。

开源且可扩展

h2>
为了加速其采用，Apple 已将 Depth Pro 开源。该代码以及预先训练的模型权重可在 GitHub 上获取，允许开发人员和研究人员试验并进一步完善该技术。该存储库包括从模型架构到预训练检查点的所有内容，使其他人可以轻松地在 Apple 的工作基础上进行构建。
研究团队还鼓励进一步探索 Depth Pros 在机器人、制造和人工智能等领域的潜力。卫生保健。作者写道，我们在 https://github.com/apple/ml-depth-pro 上发布了代码和权重，这表明这只是模型的开始。

AI 深度感知的下一步是什么

随着人工智能不断突破可能的界限，Depth Pro 为单目深度估计的速度和准确性设立了新标准。它能够从单个图像生成高质量的实时深度图，这可能会对依赖空间感知的各个行业产生广泛的影响。

在人工智能日益成为决策核心的世界中和产品开发，Depth Pro 举例说明了尖端研究如何转化为实用的现实解决方案。无论是改善机器感知周围环境的方式还是增强消费者体验，Depth Pro 的潜在用途都是广泛而多样的。

正如研究人员得出的结论，Depth Pro 在清晰描绘物体边界方面远远优于之前的所有工作，包括头发、毛皮和植被等精细结构。随着其开源版本的发布，Depth Pro 很快就会成为从自动驾驶到增强现实等行业不可或缺的一部分，从而改变机器和人与 3D 环境交互的方式。

关于《苹果发布Depth Pro，重写3D视觉规则的AI模型 - 创客网》的评论

暂无评论

发表评论

摘要

加入我们的每日和每周时事通讯，了解有关行业领先人工智能报道的最新更新和独家内容。了解更多苹果人工智能研究团队开发了一种新模型，可以显着提高机器感知深度的方式，从而有可能改变从增强现实到自动驾驶汽车等行业。但 Depth Pro 绕过了这些要求，在标准 GPU 上仅需 0.3 秒即可生成高分辨率深度图。研究人员写道，该方法应该在这种零镜头状态下理想地生成度量深度图，以准确地再现物体形状、场景布局和绝对比例，并强调该模型有可能减少与训练更传统的人工智能模型相关的时间和成本。该代码以及预先训练的模型权重可在 GitHub 上获取，允许开发人员和研究人员试验并进一步完善该技术。