英语轻松读发新版了,欢迎下载、更新

帮助机器学习模型识别任何姿势的物体

2024-12-17 21:04:51 英文原文

作者:University of Michigan College of Engineering

Helping machine learning models identify objects in any pose
在联合语义-姿势嵌入中,图像按语义进行聚类(左),每个聚类内图像按姿势形成​​一个迷你聚类(右)。图片来源:Wang 等人,2024。

据一位研究人员称,一种新的视觉识别方法提高了机器学习技术识别物体及其在空间中的方向的能力。学习于 10 月在欧洲计算机视觉会议在意大利米兰。

自监督学习是一种机器学习方法,可在未标记的数据上进行训练,从而将普遍性扩展到现实世界的数据。虽然它擅长识别物体(一项称为语义分类的任务),但它可能很难识别新姿势的物体。

在自动车辆导航等情况下,这种弱点很快就会成为一个问题,在这种情况下,算法必须评估接近的汽车是正面碰撞威胁还是侧面导向且只是路过。

密歇根大学计算机科学与技术教授 Stella Yu 表示:“我们的工作帮助机器像人类一样感知世界,为更智能的机器人、更安全的自动驾驶汽车以及技术与物理世界之间更直观的交互铺平道路。”工程和该研究的高级作者。

为了帮助机器学习物体身份和姿势,研究团队开发了一种新的自我监督学习基准,其中包括问题设置、培训和评估协议以及数据集用于姿势感知表示学习的未标记图像三元组。

图像三元组涉及捕获同一对象的三个相邻镜头,相机姿势略有变化,称为平滑视点轨迹。但是,既没有提供对象标签(例如“汽车”),也没有提供姿势标签(例如正面视图)。

这模仿了机器人视觉,机器人在环境中移动时平移相机。虽然机器人知道它正在查看同一个物体,但它不知道该物体是什么或其姿势。

以前的方法通常通过将同一对象的不同视图映射到深度神经网络最后一层的相同特征来管理正则化。新方法使用中间层特征并施加视点轨迹正则化,它将对象的三个连续视图映射到特征空间中的一条直线。第一个策略将姿态估计性能提高了 10% - 20%,而第二个策略在不减少语义分类的情况下进一步将姿态估计性能提高了 4%。

“更重要的是,我们将图像映射到不仅编码对象身份还编码对象姿势的特征,这样的特征图可以更好地泛化到机器人以前从未见过的新物体的图像。”加州伯克利视觉科学和伯克利人工智能研究实验室博士毕业生,也是该研究的第一作者。

此概念可用于发现各种类型的相关数据(例如多通道音频或时间序列)中有意义的模式。例如,特定时刻的每个音频快照都可以分配一个独特的特征,而整个序列则映射到一个平滑的特征轨迹,捕捉事物如何随时间连续变化。

更多信息:Jiayun Wang 等人,具有视点轨迹正则化的姿势感知自监督学习,计算机视觉 — ECCV 2024(2024)。DOI:10.1007/978-3-031-72664-4_2

引文:帮助机器学习模型识别任何姿势的物体(2024 年,12 月 17 日)检索日期:2024 年 12 月 17 日来自 https://techxplore.com/news/2024-12-machine-pose.html

本文档受版权保护。除了出于私人学习或研究目的的任何公平交易外,不得未经书面许可,不得复制部分内容。所提供的内容仅供参考。

关于《帮助机器学习模型识别任何姿势的物体》的评论


暂无评论

发表评论

摘要

一种新的自我监督学习方法提高了机器学习模型识别对象及其空间方向的能力。研究人员开发了一个基准,其中图像三元组捕捉同一物体的轻微姿势变化,使机器能够在没有标记数据的情况下学习身份和姿势。该方法将姿态估计性能提高了10-20%,并通过中间层特征中的视点轨迹正则化进一步提高了4%,且不影响语义分类精度。该技术有利于自主导航以及技术与物理世界之间的交互。