OC

Knowledge OS
鹦鹉螺口语
D4RT:统一、快速的 4D 场景重建和跟踪
2026-01-22 15:03:15 · 英文原文

D4RT:统一、快速的 4D 场景重建和跟踪

作者:Guillaume Le Moing and Mehdi S. M. Sajjadi

2026 年 1 月 22 日 研究

隆重推出 D4RT,这是一种用于跨空间和时间进行 4D 场景重建和跟踪的统一 AI 模型。

每当我们观察这个世界时,我们都会表现出非凡的记忆和预测能力。我们看到并理解事物在特定时刻、前一刻的样子,以及它们在接下来的时刻将如何。我们对世界的心理模型保持着对现实的持久表征,我们使用该模型对过去、现在和未来之间的因果关系得出直观的结论。

为了帮助机器更像我们一样看世界,我们可以给它们配备摄像头,但这只能解决输入问题。为了理解这种输入,计算机必须解决一个复杂的逆问题:拍摄视频(一系列平面 2D 投影)并恢复或理解丰富的动态 3D 世界。

今天我们要介绍的是D4RT(动态 4D 重建和跟踪),一种新的人工智能模型,将动态场景重建统一到一个单一、高效的框架中,使我们更接近人工智能的下一个前沿:动态现实的全面感知。

第四维度的挑战

为了理解 2D 视频中捕捉到的动态场景,人工智能模型必须跟踪每个对象在三维空间和第四维时间中移动时的每个像素。此外,它必须将这种运动与相机的运动分开,即使当物体相互移动或完全离开画面时也能保持连贯的表示。传统上,从 2D 视频中捕获这种级别的几何和运动需要计算密集型过程或专业 AI 模型的拼凑(有些模型用于深度,其他模型用于运动或摄像机角度),导致 AI 重建速度缓慢且支离破碎。

D4RT 的简化架构和新颖的查询机制使其处于 4D 重建的最前沿,同时效率比以前的方法高出 300 倍 - 足够快,适合机器人、增强现实等领域的实时应用。

D4RT 的工作原理:基于查询的方法

D4RT 作为统一的编码器-解码器 Transformer 架构运行。编码器首先将输入视频处理为场景几何和运动的压缩表示。与为不同任务采用单独模块的旧系统不同,D4RT 使用围绕单个基本问题的灵活查询机制仅计算所需的内容:

“在哪里给定像素从视频中找到的在 3D 空间任意地时间,从选择的相机?”

建立在我们之前的工作,然后轻量级解码器查询该表示以回答所提出问题的特定实例。由于查询是独立的,因此可以在现代人工智能硬件上并行处理它们。这使得 D4RT 极其快速且可扩展,无论是仅跟踪几个点还是重建整个场景。

D4RT 结合了一个强大的编码器和一个轻量级解码器,前者可以构建对视频的丰富的全局理解,后者可以并行回答数千个查询。通过提出具体问题(识别源像素在目标时间和摄像机视图中的位置),该模型可以通过单个灵活的界面有效地解决各种任务,例如跟踪、深度估计和姿态估计。

功能:快速、准确的 4D 理解

通过这种灵活的公式,该模型现在可以解决各种 4D 任务,包括:

  • 点追踪:通过查询不同时间步长的像素位置,D4RT 可以预测其 3D 轨迹。重要的是,物体不需要在视频的其他帧上可见,模型就可以进行预测。
  • 点云重建:通过冻结时间和摄像机视点,D4RT 可以直接生成场景的完整 3D 结构,消除了单独摄像机估计或每个视频迭代优化等额外步骤。
  • 相机姿态估计:通过从不同视点生成并对齐单个时刻的 3D 快照,D4RT 可以轻松恢复相机的轨迹。

正如详细的底层技术报告,D4RT 在广泛的 4D 重建任务中优于以前的方法。定性比较表明,虽然其他方法难以处理动态对象(经常复制它们或无法完全重建它们),但 D4RT 保持了对移动世界的可靠、持续的理解。

至关重要的是,D4RT 的精度并不以牺牲效率为代价。在测试中,它的执行速度比之前最先进的技术快 18 倍到 300 倍。例如,D4RT 在单个 TPU 芯片上大约用 5 秒处理一分钟的视频。以前最先进的方法可能需要长达 10 分钟才能完成相同的任务 - 提高了 120 倍。

下游应用

D4RT 证明我们不需要在 4D 重建的准确性和效率之间进行选择。其灵活的、基于查询的系统可以实时捕捉我们的动态世界,为下一代空间计算铺平道路。这包括:

  • 机器人技术:机器人需要在充满移动的人和物体的动态环境中导航。D4RT 可以提供安全导航和灵巧操作所需的空间感知。
  • 增强现实(AR):对于将数字对象叠加到现实世界的 AR 眼镜,它们需要即时、低延迟地了解场景的几何形状。D4RT 的效率有助于使设备上部署成为现实。
  • 世界模特:通过有效地解开相机运动、物体运动和静态几何,D4RT 让我们离拥有物理现实的真实“世界模型”的人工智能又近了一步,这是通向 AGI 的必要步骤。

我们正在继续探索该模型的功能以及在机器人、增强现实等领域的应用潜力。

Gemini Robotics 1.5 将人工智能代理带入物理世界

介绍 Veo 3.1 和高级创意功能

Genie 3:世界模型的新领域

关于《D4RT:统一、快速的 4D 场景重建和跟踪》的评论

暂无评论

发表评论