作者:by Aviral Chharia
让人工智能系统能够稳健地感知人类仍然是计算机视觉领域最复杂的挑战之一。最复杂的问题之一是重建人手的 3D 模型,这项任务在机器人、动画、人机交互以及增强和虚拟现实中有着广泛的应用。困难在于手本身的性质,在握住物体时常常会变得模糊,或者在抓取等任务中扭曲成具有挑战性的方向。
在卡内基梅隆大学的机器人研究所,我们设计了一个新模型,汉巴,这是提出在第 38 届神经信息处理系统年会(神经IPS 2024)在温哥华。Hamba 提供了一种特别有趣的方法来重建 3D 手单幅图像,不需要事先了解相机的规格或人的身体背景。
Hamba 的与众不同之处在于它不同于传统的基于变压器的架构。相反,它利用曼巴基于状态空间建模,标志着这种方法首次应用于关节式 3D 形状重建。该模型还通过引入图形引导的双向扫描来改进 Mamba 的原始扫描过程,该扫描利用图形神经网络的图形学习功能以极高的精度捕获手关节之间的空间关系。
Hamba 在 FreiHAND 等基准测试中实现了最先进的性能,每个顶点的平均位置误差仅为 5.3 毫米,这一精度凸显了其在实际应用中的潜力。此外,在研究被接受时,Hamba 在两项 3D 手部重建竞赛排行榜上均位居榜首(排名第一)。
除了技术成就之外,Hamba 对以下领域还具有更广泛的影响:人机交互。通过使机器能够更好地感知和解释人的手,它为未来能够更细致地理解人类情感和意图的通用人工智能 (AGI) 系统和机器人奠定了基础。
展望未来,研究团队计划解决该模型的局限性,同时探索其从单个图像重建全身 3D 人体模型的潜力——这是在医疗保健和娱乐等行业广泛应用的另一个重要挑战。凭借其技术精度和实用性的独特结合,Hamba 体现了人工智能如何不断突破机器感知人类的界限。
这个故事是一部分科学X对话,研究人员可以报告他们发表的研究文章的发现。访问此页面有关 Science X Dialog 以及如何参与的信息。
更多信息:haoye Dong、Aviral Chharia、Wenbo Gou、Francisco Vicente Carrasco、Fernando De la Torre,“Hamba:使用图形引导双扫描 Mamba 进行单视图 3D 手部重建”。openreview.net/forum?id=pCJ0l1JVUX。在arXiv:DOI:10.48550/arxiv.2407.09646
期刊信息: arXiv
Aviral Chharia 是卡内基梅隆大学的研究生。他曾获得卡耐基梅隆大学 ATK-Nick G. Vlahakis 研究生奖学金、印度 IIT 坎普尔分校的学生本科生研究优秀研究生 (SURGE) 奖学金以及不列颠哥伦比亚大学的 MITACS Globalink 研究奖学金。此外,他在本科期间曾两次获得院长名单奖学金。他的研究兴趣包括计算机视觉、计算机图形学和机器学习。
引文:改变人工智能系统感知人类双手的方式(2025 年,1 月 17 日)检索日期:2025 年 1 月 18 日来自 https://techxplore.com/news/2025-01-ai- human.html
本文档受版权保护。除了出于私人学习或研究目的的任何公平交易外,不得未经书面许可,不得复制部分内容。所提供的内容仅供参考。