虽然大多数人天生就能用双手与他人交流或抓取和操纵物体,但许多现有的机器人系统只擅长简单的手动任务。近年来,世界各地的计算机科学家一直在开发基于机器学习的模型,这些模型可以处理人类完成手动任务的图像,利用获取的信息来改进机器人操作,从而增强机器人与人类和周围物体的交互。
类似的模型也可用于创建依赖计算机视觉的人机界面或扩大增强现实和虚拟现实(AR 和 VR)系统的功能。为了训练这些机器学习模型,研究人员需要访问高质量的数据集,其中包含人类完成各种现实世界手动任务的带注释的镜头。
Meta Reality Labs 的研究人员最近推出了 HOT3D,这是一种新的数据集这有助于加速机器学习研究以分析手部物体交互。该数据集在论文中提出发表于arXiv预印本服务器,包含人类用户从自我中心的角度抓取和操作各种物体的高质量以自我为中心的 3D 视频(即,镜像完成任务的人会看到的内容)。
Prithviraj Banerjee、Sindi Shkodrani 及其同事在论文中写道:“我们推出了 HOT3D,这是一个公开的数据集,用于以自我为中心的手部和 3D 物体跟踪。”
“该数据集提供了超过 833 分钟(超过 370 万张图像)的多视图 RGB/单色图像流,显示 19 个主体与 33 个不同的刚性物体、多模态信号(例如目光凝视或场景点云,以及全面的地面实况注释,包括物体、手和相机的 3D 姿势,以及手和物体的 3D 模型。”
Meta Reality Labs 团队编制的新数据集包含人类拾取和观察物体以及将它们放回表面的简单演示。然而,它还包括更详细的演示,展示用户执行在办公室和家庭环境中常见的操作,例如拿起和使用厨房用具、操作各种食物、在键盘上打字等等。
数据集中包含的带注释的镜头是使用 Meta 开发的两种设备收集的,即 Project Aria 眼镜和 Quest 3 耳机。Aria 项目最终创建了用于增强现实 (AR) 应用的轻型传感眼镜原型。
Project Aria 眼镜可以捕捉视频和音频数据同时还跟踪佩戴它们的用户的眼球运动并收集有关其视野中物体位置的信息。Quest 3 是第二个用于收集数据的设备,是一款商用产品虚拟现实Meta 开发的 (VR) 耳机。
巴纳吉、斯科德拉尼和他们的同事写道:“专业的动作捕捉系统使用附着在手和物体上的小型光学标记来获得真实的姿势。”“手工注释以 UmeTrack 和 MANO 格式提供,对象由 3D 网格和内部扫描仪获得的 PBR 材料表示。”
为了评估 HOT3D 数据集在机器人和计算机视觉研究中的潜力,研究人员使用它来训练三个不同任务的基线模型。他们发现,这些模型在 HOT3D 中包含的多视图数据上进行训练时,其表现明显优于在捕获单个视点的演示上进行训练时。
Banerjee、Shkodrani 和他们的同事写道:“在我们的实验中,我们展示了多视图自我中心数据对于三个流行任务的有效性:3D 手部跟踪、6DoF 物体姿态估计和未知手中物体的 3D 提升。”“经过评估的多视图方法的基准测试是由 HOT3D 独特实现的,其性能显着优于单视图方法。”
HOT3D 数据集是开源的,全世界的研究人员都可以在咏叹调项目网站。未来,它可以为各种技术的发展和进步做出贡献,包括人机界面、机器人和其他基于计算机视觉的系统。
更多信息:Prithviraj Banerjee 等人,HOT3D:通过以自我为中心的多视图视频进行 3D 手部和物体跟踪,arXiv(2024)。DOI:10.48550/arxiv.2411.19167
期刊信息: arXiv
© 2025 Science X 网络
引文:Meta 推出用于高级计算机视觉训练的 HOT3D 数据集(2025 年 1 月 3 日)检索日期:2025 年 1 月 4 日来自 https://techxplore.com/news/2025-01-meta-unveils-hot3d-dataset-advanced.html
本文档受版权保护。除了出于私人学习或研究目的的任何公平交易外,不得未经书面许可,不得复制部分内容。所提供的内容仅供参考。