Meta 推出用于高级计算机视觉训练的 HOT3D 数据集

2025-01-03 11:50:21 英文原文

Meta releases new dataset to train computer vision algorithms — HOT3D 概述。该数据集包括来自 Aria [13] 和 Quest 3 [41] 的多视图自我中心图像流，并带有高质量的地面实况 3D 姿势以及手和物体的模型。左侧显示了 Aria 的三个多视图帧，其中手部和物体的 3D 模型的轮廓分别以白色和绿色表示。Aria 还提供来自 SLAM 的 3D 点云和眼睛注视信息（右）。图片来源：Banerjee 等人。

虽然大多数人天生就能用双手与他人交流或抓取和操纵物体，但许多现有的机器人系统只擅长简单的手动任务。近年来，世界各地的计算机科学家一直在开发基于机器学习的模型，这些模型可以处理人类完成手动任务的图像，利用获取的信息来改进机器人操作，从而增强机器人与人类和周围物体的交互。

类似的模型也可用于创建依赖计算机视觉的人机界面或扩大增强现实和虚拟现实（AR 和 VR）系统的功能。为了训练这些机器学习模型，研究人员需要访问高质量的数据集，其中包含人类完成各种现实世界手动任务的带注释的镜头。

Meta Reality Labs 的研究人员最近推出了 HOT3D，这是一种新的数据集这有助于加速机器学习研究以分析手部物体交互。该数据集在论文中提出发表于arXiv预印本服务器，包含人类用户从自我中心的角度抓取和操作各种物体的高质量以自我为中心的 3D 视频（即，镜像完成任务的人会看到的内容）。

Prithviraj Banerjee、Sindi Shkodrani 及其同事在论文中写道：“我们推出了 HOT3D，这是一个公开的数据集，用于以自我为中心的手部和 3D 物体跟踪。”

“该数据集提供了超过 833 分钟（超过 370 万张图像）的多视图 RGB/单色图像流，显示 19 个主体与 33 个不同的刚性物体、多模态信号（例如目光凝视或场景点云，以及全面的地面实况注释，包括物体、手和相机的 3D 姿势，以及手和物体的 3D 模型。”

图片来源：Aria 项目

Meta Reality Labs 团队编制的新数据集包含人类拾取和观察物体以及将它们放回表面的简单演示。然而，它还包括更详细的演示，展示用户执行在办公室和家庭环境中常见的操作，例如拿起和使用厨房用具、操作各种食物、在键盘上打字等等。

数据集中包含的带注释的镜头是使用 Meta 开发的两种设备收集的，即 Project Aria 眼镜和 Quest 3 耳机。Aria 项目最终创建了用于增强现实 (AR) 应用的轻型传感眼镜原型。

Project Aria 眼镜可以捕捉视频和音频数据同时还跟踪佩戴它们的用户的眼球运动并收集有关其视野中物体位置的信息。Quest 3 是第二个用于收集数据的设备，是一款商用产品虚拟现实Meta 开发的 (VR) 耳机。

巴纳吉、斯科德拉尼和他们的同事写道：“专业的动作捕捉系统使用附着在手和物体上的小型光学标记来获得真实的姿势。”“手工注释以 UmeTrack 和 MANO 格式提供，对象由 3D 网格和内部扫描仪获得的 PBR 材料表示。”

为了评估 HOT3D 数据集在机器人和计算机视觉研究中的潜力，研究人员使用它来训练三个不同任务的基线模型。他们发现，这些模型在 HOT3D 中包含的多视图数据上进行训练时，其表现明显优于在捕获单个视点的演示上进行训练时。

Banerjee、Shkodrani 和他们的同事写道：“在我们的实验中，我们展示了多视图自我中心数据对于三个流行任务的有效性：3D 手部跟踪、6DoF 物体姿态估计和未知手中物体的 3D 提升。”“经过评估的多视图方法的基准测试是由 HOT3D 独特实现的，其性能显着优于单视图方法。”

HOT3D 数据集是开源的，全世界的研究人员都可以在咏叹调项目网站。未来，它可以为各种技术的发展和进步做出贡献，包括人机界面、机器人和其他基于计算机视觉的系统。

更多信息：Prithviraj Banerjee 等人，HOT3D：通过以自我为中心的多视图视频进行 3D 手部和物体跟踪，arXiv（2024）。DOI：10.48550/arxiv.2411.19167

期刊信息： arXiv

引文:Meta 推出用于高级计算机视觉训练的 HOT3D 数据集（2025 年 1 月 3 日）检索日期：2025 年 1 月 4 日来自 https://techxplore.com/news/2025-01-meta-unveils-hot3d-dataset-advanced.html

本文档受版权保护。除了出于私人学习或研究目的的任何公平交易外，不得未经书面许可，不得复制部分内容。所提供的内容仅供参考。

关于《Meta 推出用于高级计算机视觉训练的 HOT3D 数据集》的评论

暂无评论

发表评论

摘要

Meta Reality Labs 推出了 HOT3D，这是一个新数据集，其中包含高质量 3D 视频以及从自我中心的角度人类与物体交互的注释。该数据集包括超过 833 分钟（超过 370 万张图像）的多视图 RGB/单色图像流、眼睛注视数据和 19 个受试者使用 33 个不同刚性物体的点云。HOT3D 旨在加速分析手部物体交互的机器学习研究，与单视图数据相比，在多视图数据上训练的模型显示出显着改进。该数据集可在 Project Aria 网站上公开获取，可以推动人机界面、机器人和计算机视觉系统等技术的发展。

Meta 推出用于高级计算机视觉训练的 HOT3D 数据集

关于《Meta 推出用于高级计算机视觉训练的 HOT3D 数据集》的评论

发表评论

摘要

相关新闻

相关讨论