作者:By Rhiannon Williamsarchive page
教机器人适应新环境是很困难的。你可以用人类录制的真实世界数据来训练它们,但这是稀缺的而且收集起来很贵。数字模拟是一种快速、可扩展的方法来教他们做新事物,但当机器人被从虚拟世界中拉出来并要求在真实世界中执行相同的任务时,它们常常会失败。
现在有一个可能更好的选择:使用生成式人工智能模型的新系统 与物理模拟器结合开发虚拟训练场,更准确地反映物理世界。使用这种方法训练的机器人在现实世界的测试中比使用更传统技术训练的机器人取得了更高的成功率。
研究人员使用这个名为 LucidSim 的系统来训练机器狗跑酷,让它爬过盒子并爬楼梯,即使它从未见过任何现实世界的数据。该方法展示了生成式人工智能在教机器人完成具有挑战性的任务时有多么有用。这也提出了我们最终可以在完全虚拟的世界中训练它们的可能性。这研究上周在机器人学习会议(CoRL)上提出。
“我们正处于机器人技术的工业革命之中,”参与该项目的麻省理工学院计算机科学与人工智能实验室的博士后葛阳说道。“这是我们试图了解这些[生成式人工智能]模型超出其最初预期目的的影响,希望它能引导我们开发下一代工具和模型。”
LucidSim 使用生成式 AI 模型的组合来创建视觉训练数据。首先,研究人员为 ChatGPT 生成了数千条提示,让它创建一系列环境的描述,代表机器人在现实世界中会遇到的条件,包括不同类型的天气、一天中的时间和照明条件。其中包括“一条古老的小巷,两旁都是茶馆和古色古香的小商店,每家都展示着传统的装饰品和书法”,以及“阳光照亮了略显凌乱的草坪,上面点缀着干斑。”
这些描述被输入到一个系统中,该系统将 3D 几何和物理数据映射到人工智能生成的图像上,创建短视频来映射机器人要遵循的轨迹。机器人利用这些信息来计算出它必须导航的物体的高度、宽度和深度——例如一个盒子或一组楼梯。
研究人员通过指示配备网络摄像头的四足机器人完成多项任务来测试 LucidSim,包括定位交通锥或足球、爬过盒子以及上下楼梯。该机器人的表现始终优于运行经过传统模拟训练的系统时的表现。在 20 次定位锥体的试验中,LucidSim 的成功率为 100%,而经过标准模拟训练的系统的成功率为 70%。同样,LucidSim 在另外 20 次试验中达到了 85% 的成功率,而其他系统只有 35%。
最后,当机器人运行 LucidSim 时,它成功完成了全部 10 次爬楼梯试验,而其他系统仅完成了 50%。
参与这项研究的麻省理工学院副教授 Phillip Isola 表示,如果 LucidSim 直接从复杂的生成视频模型中提取,而不是语言、图像和物理模型的组合,那么这些结果在未来可能会进一步改善。。
纽约大学的博士生 Mahi Shafiullah 表示,研究人员使用生成式人工智能的方法是一种新颖的方法,它将为更有趣的新研究铺平道路。训练机器人的人工智能模型。他没有参与该项目。
“我个人认为更有趣的方向是真实和现实的“想象”数据的混合,这可以帮助我们当前需要数据的方法更快更好地扩展,”他说。
纯粹根据人工智能生成的情况和场景从头开始训练机器人的能力是一项重大成就,可以超越机器扩展到更通用的领域人工智能代理华为专门从事类脑人工智能研究的高级研究科学家 Zafeirios Fountas 表示。
– 这里“机器人”一词的使用非常普遍;我们正在谈论某种与现实世界互动的人工智能,”他说。“我可以想象它可以用来控制任何类型的视觉信息,从机器人和自动驾驶汽车到控制计算机屏幕或智能手机。”
就下一步而言,作者有兴趣尝试使用完全合成的数据来训练人形机器人,他们承认这是一个雄心勃勃的目标,因为双足机器人通常不如四足机器人稳定。他们还将注意力转向另一个新挑战:使用 LucidSim 来训练机械臂在工厂和厨房工作。他们必须执行的任务比在风景中奔跑需要更多的灵活性和物理理解。
“真正拿起一杯咖啡并倒出它是一个非常困难、开放的问题,”伊索拉说。“如果我们能够进行通过生成人工智能增强的模拟来创造大量多样性,并训练一个可以在咖啡馆运行的非常强大的代理,我认为那会非常酷。”