作者:Rachel Gordon | MIT CSAIL
对于机器人专家来说,一项挑战高于其他挑战:泛化——创造能够适应任何环境或条件的机器的能力。自 20 世纪 70 年代以来,该领域已经从编写复杂的程序发展到使用深度学习,教导机器人直接从人类行为中学习。但一个关键瓶颈仍然存在:数据质量。为了改进,机器人需要遇到突破其能力界限的场景,在其掌握的边缘进行操作。传统上,这个过程需要人工监督,操作员小心地挑战机器人以扩展其能力。随着机器人变得越来越复杂,这种实践方法遇到了扩展问题:对高质量训练数据的需求远远超过了人类提供数据的能力。
现在,麻省理工学院计算机科学和人工智能实验室(CSAIL)的研究人员团队开发了一种新颖的机器人训练方法,可以显着加速适应性强的智能机器在现实环境中的部署。新系统称为 –清醒模拟,利用生成式人工智能和物理模拟器的最新进展来创建多样化且逼真的虚拟训练环境,帮助机器人在没有任何真实世界数据的情况下在困难任务中实现专家级的性能。
LucidSim 将物理模拟与生成人工智能模型相结合,解决了机器人技术中最持久的挑战之一:将模拟中学到的技能转移到现实世界。“机器人学习的一个根本挑战长期以来一直是“模拟与真实的差距”,即模拟训练环境与复杂、不可预测的现实世界之间的差异,”麻省理工学院 CSAIL 博士后葛阳说,LucidSim 的首席研究员。– 以前的方法通常依赖于深度传感器,这简化了问题,但忽略了现实世界的关键复杂性。”
这个多管齐下的系统融合了不同的技术。LucidSim 的核心是使用大型语言模型来生成环境的各种结构化描述。然后使用生成模型将这些描述转化为图像。为了确保这些图像反映真实世界的物理现象,使用底层物理模拟器来指导生成过程。
一个想法的诞生:从墨西哥卷饼到突破
LucidSim 的灵感来自一个意想不到的地方:马萨诸塞州剑桥 Beantown Taqueria 外面的一次谈话。“我们想教配备视觉的机器人如何利用人类反馈进行改进。但后来,我们意识到我们一开始就没有一个纯粹的基于视觉的政策,”说Alan Yu 是麻省理工学院电气工程和计算机科学 (EECS) 专业的本科生,也是 LucidSim 的共同主要作者。——我们一边走在街上,一边不停地谈论这件事,然后我们在墨西哥快餐店外停了大约半个小时。这就是我们的精彩时刻。”
为了整理数据,该团队通过从模拟场景中提取深度图(提供几何信息)和语义掩模(标记图像的不同部分)来生成逼真的图像。然而,他们很快意识到,通过严格控制图像内容的组成,模型将使用相同的提示生成彼此没有区别的相似图像。因此,他们设计了一种从 ChatGPT 获取不同文本提示的方法。
然而,这种方法只产生了单个图像。为了制作简短、连贯的视频作为机器人的小“体验”,科学家们将一些图像魔法融入到团队创造的另一种新技术中,称为“运动中的梦想”。每个像素在帧之间的移动,将单个生成的图像变形为短的多帧视频。Dreams In Motion 通过考虑场景的 3D 几何形状和机器人视角的相对变化来实现这一点。
“我们优于域随机化,这是一种 2017 年开发的方法,它将随机颜色和图案应用于环境中的对象,目前仍被认为是首选方法,”Yu 说。“虽然这种技术生成的数据多种多样,缺乏真实性。LucidSim 解决了多样性和现实性问题。令人兴奋的是,即使在训练期间没有看到现实世界,机器人也可以识别并导航现实环境中的障碍物。”
该团队对将 LucidSim 应用到四足动物运动和跑酷(他们的主要测试平台)之外的领域的潜力感到特别兴奋。一个例子是移动操纵,移动机器人的任务是在开放区域处理物体;此外,色彩感知也至关重要。“今天,这些机器人仍然从现实世界的演示中学习,”杨说。尽管收集演示很容易,但将现实世界的机器人远程操作设置扩展到数千种技能却具有挑战性,因为人类必须亲自设置每个场景。我们希望通过将数据收集转移到虚拟环境中,使这一过程变得更容易,从而在质量上更具可扩展性。”
谁是真正的专家?
该团队将 LucidSim 与替代方案进行了测试,其中一位专家老师演示了机器人可以学习的技能。结果令人惊讶:由专家训练的机器人举步维艰,只有 15% 的成功率,甚至将专家训练数据量增加四倍也几乎没有什么效果。但当机器人通过 LucidSim 收集自己的训练数据时,情况发生了巨大的变化。只需将数据集大小增加一倍,成功率就跃升至 88%。“并为我们的机器人提供更多数据,单调地提高其性能 - 最终,学生成为专家,”杨说。
“机器人从模拟到真实的转换的主要挑战之一是在模拟环境中实现视觉真实感,”斯坦福大学电气工程助理教授宋舒然(Shuran Song)没有参与这项研究,他说。– LucidSim 框架通过使用生成模型为任何模拟创建多样化、高度逼真的视觉数据,提供了一个优雅的解决方案。这项工作可以显着加速在虚拟环境中训练的机器人在现实世界任务中的部署。
从剑桥的街道到机器人研究的前沿,LucidSim 正在为新一代智能、适应性强的机器铺平道路,这些机器无需涉足复杂的世界就能学会导航。
Yu 和 Yang 与四位 CSAIL 附属机构一起撰写了这篇论文:Ran Choi,麻省理工学院机械工程博士后;Yajvan Ravan,麻省理工学院 EECS 本科生;John Leonard,麻省理工学院机械工程系塞缪尔·C·柯林斯机械与海洋工程教授;菲利普·伊索拉 (Phillip Isola),麻省理工学院 EECS 副教授。他们的工作部分得到了帕卡德奖学金、斯隆研究奖学金、海军研究办公室、新加坡国防科学技术局、亚马逊、麻省理工学院林肯实验室以及国家科学基金会人工智能和人工智能研究所的支持。基本相互作用。研究人员在 11 月初的机器人学习会议 (CoRL) 上展示了他们的工作。