新颖的框架可以为模仿学习创建以自我为中心的人类演示

2024-11-29 12:10:02 英文原文

A new framework to create egocentric human demonstrations for imitation learning — 信用：*arXiv*（2024）。DOI：10.48550/arxiv.2410.24221

教机器人如何完成清洁餐具或准备食物等手动任务的最有前途的方法之一被称为模仿学习。端到端模仿学习通常需要对人类完成手动任务的原始视频、图像和/或动作捕捉数据进行深度学习算法的训练。

在训练过程中，算法逐渐学习产生输出动作（即机器人关节运动、轨迹等），这将使机器人能够成功完成相同的任务。

虽然模仿学习技术可以增强机器人完成复杂对象操作任务的能力，但它们通常不允许机器人泛化训练数据集中未包含的任务。此外，收集各种任务的培训演示可能具有挑战性，并且需要先进的传感器或设备。

佐治亚理工学院的研究人员最近推出了 EgoMimic，这是一个新框架，可用于轻松收集更多样的模仿学习演示数据。该框架介绍于纸发布到arXiv预印本服务器提供了一个可扩展的平台，用于从完成任务的人（即以自我为中心）的角度收集人类完成手动任务的视频演示。

Simar Kareer、Dhruv Patel 和他们的同事在论文中写道：“我们推出了 EgoMimic，这是一个全栈框架，可以通过人类具体数据（特别是与 3D 手部追踪相结合的以自我为中心的人类视频）来扩展操纵。”

“EgoMimic 通过以下方式实现这一目标：(1) 使用符合人体工程学的 Project Aria 眼镜捕获人体数据的系统，(2) 低成本的双手操纵器，最大限度地减少与人体数据的运动学差距，(3) 跨域数据对齐技术，以及（4）一种对人类和机器人数据进行共同训练的模仿学习架构。”

EgoMimic 框架的第一个组件是捕获演示视频的系统，它依赖于 Meta Reality Labs Research 创建的可穿戴智能眼镜 Project Aria 的使用。人类在完成日常手动任务时佩戴这些眼镜，从他们的角度记录任务。

研究人员用来处理与人类完成的相同任务的双手动机器人系统由两个集成英特尔实感腕式摄像头的 Viper X 机械臂组成，而这两个机械臂又由两个 WidowX 机械臂控制。值得注意的是，这款双手动机器人在完成任务时还会“佩戴”Aria 眼镜，因为这可以最大限度地减少人类演示者完成任务的镜头与机器人看到的工作空间之间的差异。

Kareer、Patel 及其同事写道：“与之前仅从人类视频中提取高级意图的工作相比，我们的方法将人类和机器人数据视为具体的演示数据，并从这两个数据源中学习统一的策略。”

研究人员通过在实验室进行一系列实验来测试他们提出的框架，他们的机器人在实验室中学会了完成长期的现实世界任务。例如，机器人学会了拿起一个小毛绒玩具，将其放入碗中，拿起碗并将玩具倒在桌子上，然后重复这个动作序列40秒。

它接受的其他训练任务包括以特定方式折叠 T 恤，以及在杂货袋中装满薯片。这些初步实验的结果非常有希望，因为 EgoMimic 框架在这三项任务上比过去引入的其他最先进的模仿学习技术表现得更好，同时还允许机器人有效地应用它学到的技能训练期间未遇到的任务。

卡里尔、帕特尔和他们的同事写道：“与最先进的模仿学习方法相比，EgoMimic 在一系列长视距、单臂和双手操作任务上取得了显着改进，并能够推广到全新的场景。”“最后，我们展示了 EgoMimic 的有利扩展趋势，其中添加 1 小时的额外手部数据比 1 小时的额外机器人数据更有价值。”

代码为数据处理研究人员使用的训练模型是可以在 GitHub 上找到。未来，EgoMimic 或其改编版本可以被世界各地的其他机器人专家采用，以提高各种机器人系统在涉及操纵物体的各种日常任务中的性能和通用性。

更多信息：Simar Kareer 等人，EgoMimic：通过自我中心视频扩展模仿学习，arXiv（2024）。DOI：10.48550/arxiv.2410.24221

期刊信息： arXiv

引文:新颖的框架可以为模仿学习创建以自我为中心的人类演示（2024 年，11 月 29 日）检索日期：2024 年 11 月 29 日来自 https://techxplore.com/news/2024-11-framework-egocentric- human-imitation.html

本文档受版权保护。除了出于私人学习或研究目的的任何公平交易外，不得未经书面许可，不得复制部分内容。所提供的内容仅供参考。

关于《新颖的框架可以为模仿学习创建以自我为中心的人类演示》的评论

暂无评论

发表评论

摘要

佐治亚理工学院的研究人员推出了 EgoMimic，这是一种新框架，旨在通过使用 Project Aria 眼镜从自我中心的角度收集各种人类演示数据来增强机器人的模仿学习。该系统包括配备 Viper X 手臂和英特尔实感腕式摄像头的双手动机器人设置，可以更好地协调人类和机器人数据。与现有方法相比，EgoMimic 在拾取物体、折叠 T 恤和填充袋子等任务中表现出了卓越的性能和泛化能力。该框架的代码可在 GitHub 上获取，为机器人系统中更广泛的应用提供了潜力。

新颖的框架可以为模仿学习创建以自我为中心的人类演示

关于《新颖的框架可以为模仿学习创建以自我为中心的人类演示》的评论

发表评论

摘要

相关新闻

相关讨论