一种统治所有机器人的人工智能模型 - IEEE Spectrum

2024-09-18 13:23:27 英文原文

<正文>

用于控制机器人的软件通常高度适应其特定的物理设置。但现在研究人员已经创建了一个单一的通用机器人控制策略,可以操作机械臂、轮式机器人、四足动物,甚至无人机。

将机器学习应用于机器人技术时面临的最大挑战之一是数据的缺乏。虽然计算机视觉和自然语言处理可以利用互联网上的大量图像和文本数据,但收集机器人数据既昂贵又耗时。

为了解决这个问题,人们越来越努力地汇集不同群体在不同类型机器人上收集的数据,包括 Open X-Embodiment 和 DROID 数据集。我们希望对不同机器人数据的训练能够带来积极的迁移,即从一项任务的训练中学到的技能有助于提高另一项任务的表现。

问题在于,机器人通常具有非常不同的实施例(用于描述其物理布局以及传感器和执行器套件的术语),因此它们收集的数据可能会有很大差异。例如,机械臂可能是静态的,具有复杂的关节和手指排列,并从手腕上的摄像头收集视频。相比之下,四足机器人经常移动,并依靠腿部的力反馈进行机动。这些机器被训练执行的任务和动作种类也多种多样:手臂可以拾取和放置物体,而四足动物则需要敏锐的导航。

霍默·沃克 (Homer Walke) 博士表示,这使得在这些大量数据上训练单个 AI 模型具有挑战性。加州大学伯克利分校的学生。到目前为止,大多数尝试要么专注于来自较小范围的类似机器人的数据,要么研究人员手动调整数据以使不同机器人的观察结果更加相似。但在最近发布在 arXiv 上的预印本中,Walke 和同事推出了一种名为 CrossFormer 的新模型,该模型可以训练来自不同机器人组的数据并控制它们以及专门的控制策略。

沃克说,我们希望能够利用所有这些数据进行训练,以获得最有能力的机器人。本文的主要进展是找出哪种架构最适合容纳所有这些不同的输入和输出。

如何用相同的AI模型控制不同的机器人

该团队使用了与大型语言模型相同的模型架构,称为变压器。沃克说,在很多方面,研究人员试图解决的挑战与聊天机器人面临的挑战没有什么不同。在语言建模中,人工智能必须在不同长度和词序的句子中挑选出相似的模式。机器人数据也可以像书面句子一样按顺序排列,但根据特定的实施例,观察和动作的长度和顺序也会有所不同。

沃克说,单词可能出现在句子中的不同位置,但它们仍然表示相同的意思。在我们的任务中,观察图像可能出现在序列中的不同位置,但它本质上仍然是图像,我们仍然希望将其视为图像。

加州大学伯克利分校/卡内基梅隆大学

大多数机器学习方法一次只处理一个元素的序列,但转换器可以一次处理整个数据流。这使他们能够分析不同元素之间的关系,并使他们能够更好地处理未标准化的序列,就像大型机器人数据集中发现的各种数据一样。

Walke 和他的同事并不是第一个利用大规模机器人数据训练 Transformer 的人。但以前的方法要么仅对来自具有广泛相似实施例的机器人手臂的数据进行训练,要么手动将输入数据转换为通用格式以使其更易于处理。相比之下,CrossFormer 可以处理来自位于机器人上方、头部高度或机器人手臂手腕上的摄像机的图像,以及来自四足动物和机器人手臂的关节位置数据,而无需任何调整。

结果是一个单一的控制策略,可以操作单个机械臂、成对机械臂、四足机器人和轮式机器人来执行各种任务,例如拾取和放置物体、切寿司和避障等。至关重要的是,它与为每个机器人量身定制的专用模型的性能相匹配,并且优于之前在不同机器人数据上训练的方法。该团队甚至测试了该模型是否可以控制数据集中未包含的小型四轴飞行器。虽然他们通过让无人机在固定高度飞行来简化事情,但 CrossFormer 的性能仍然优于之前的最佳方法。

这绝对是非常酷的,伯克利大学本科生 Ria Doshi 说。我认为,当我们扩大我们的政策以能够对更大的不同数据集进行训练时,会更容易看到这种零镜头转移到在训练中完全看不见的机器人上。

一种人工智能模型对所有机器人的局限性

不过,该团队承认仍有工作要做。该模型对于任何机器人嵌入式芯片来说都太大了,必须从服务器运行。即便如此,处理时间也仅够快到支持实时操作,沃克承认,如果扩大模型规模,情况可能会崩溃。当您将如此多的数据打包到模型中时,它必须非常大,这意味着运行它进行实时控制变得很困难。

更重要的是,该团队在实验中没有看到任何积极的迁移,因为 CrossFormer 只是匹配之前的性能而不是超越它。Walke 认为计算机视觉和自然语言处理的进展表明,对更多数据进行训练可能是关键。

其他人说事情可能没那么简单。斯坦福大学机器人学教授 Jeannette Bohg 表示,能够在如此多样化的数据集上进行训练是一项重大贡献。但她想知道研究人员没有看到正迁移的部分原因是否是他们坚持不对齐输入数据。之前对具有相似观察和动作数据的机器人进行训练的研究已经显示了这种交叉的证据。Bohg 说,通过摆脱这种对齐方式,他们可能也摆脱了我们在其他工作中看到的这种显着的正向转移。

爱丁堡大学机器人学教授 Ram Ramamoorthy 表示,目前还不清楚该方法是否会提高特定实施例或机器人应用的特定任务的性能。他说,这项工作是帮助机器人捕捉大多数机器人常见概念(例如避开这个障碍)的有希望的一步。但它对于解决特定机器人特有的控制问题可能不太有用,例如如何揉面团或在森林中导航,这些通常是最难解决的。

Edd Gent 是一位居住在印度班加罗尔的自由科技作家。他的著作重点关注计算、工程、能源和生物科学领域的新兴技术。他的 Twitter 账号为 @EddytheGent,电子邮件地址为 Outlook.com 的 edd dot gent。他的 PGP 指纹是 ABB8 6BB3 3E69 C4A7 EC91 611B 5C12 193D 5DFC C01B。他的公钥在这里。DM 获取信号信息。

摘要

用于控制机器人的软件通常高度适应其特定的物理设置。相比之下,CrossFormer 可以处理来自机器人上方、头部高度或机器人手臂手腕上的摄像机的图像,以及来自四足动物和机器人手臂的关节位置数据,无需任何调整。伯克利大学本科生 Ria Doshi 表示,这绝对是非常酷的。我认为,当我们扩大我们的政策,以便能够对更大的不同数据集进行训练时,会更容易看到这种零镜头转移到在训练中完全看不到的机器人上。沃克认为计算机视觉和自然语言处理的进展表明,对更多数据的训练可能是关键。