隆重推出 Rho-alpha,微软的新机器人模型
几十年来,机器人在装配线等结构化环境中表现出色,这些环境中的任务是可预测的且脚本化严格。
– 物理系统视觉-语言-动作 (VLA) 模型的出现使系统能够在结构化程度较低的环境中与人类一起感知、推理和行动,并具有越来越多的自主性。 –
—Ashley Llorens,微软研究加速器公司副总裁兼董事总经理
物理人工智能是代理人工智能与物理系统的结合,它将重新定义机器人技术,就像生成模型改变了语言和视觉处理一样。
今天,我们宣布 Rho-alpha (Ïα),我们的第一个机器人模型源自微软的 Phi 系列(在新选项卡中打开)视觉语言模型。
我们邀请有兴趣评估 Rho-alpha 机器人和用例的组织表达对Rho-alpha 研究早期访问计划(在新选项卡中打开)。Rho-alpha 也将在稍后通过 Microsoft Foundry 提供。
Rho-alpha 将自然语言命令转换为执行双手操作任务的机器人系统的控制信号。它可以被描述为 VLA+ 模型,因为它扩展了 VLA 通常使用的感知和学习模式集。在感知方面,Rho-alpha 增加了触觉感知,并正在努力适应力等模式。在学习方面,我们致力于通过学习人们提供的反馈,使 Rho-alpha 在部署过程中不断改进。
通过这些进步,我们的目标是使物理系统更容易适应,将适应性视为智能的标志。我们相信,能够更轻松地适应动态情况和人类偏好的机器人将在我们生活和工作的环境中更加有用,并且更受到部署和操作它们的人的信任。
上面的视频演示了 Rho-alpha 与 BusyBox 的交互,BusyBox 是微软研究院最近推出的物理交互基准,由自然语言指令引导。(视频展示了机器人的实时操作速度。)
我们的团队正在致力于对 Rho-alpha 的训练流程和训练数据语料库进行端到端优化,以提高 Microsoft 和我们的合作伙伴感兴趣的双手操作任务的性能和效率。该模型目前正在双臂设置和人形机器人上进行评估。我们将在未来几个月内发布技术说明。
Rho-alpha 通过对物理演示和模拟任务的轨迹以及网络规模的视觉问答数据进行联合训练,实现了融入视觉语言理解的触觉感知行为。我们计划使用相同的蓝图继续将模型扩展到各种现实世界任务中的其他传感模式。
– 虽然通过远程操作机器人系统生成训练数据已成为标准做法,但在许多情况下远程操作是不切实际或不可能的。我们正在与 Microsoft Research 合作,通过结合模拟和强化学习的各种综合演示来丰富从物理机器人收集的预训练数据集。
—Abhishek Gupta 教授,华盛顿大学助理教授
模拟在我们克服预训练规模机器人数据普遍缺乏的方法中发挥着关键作用,特别是包含触觉反馈和其他不太常见的传感方式的数据。我们的训练管道通过基于强化学习的多阶段过程生成合成数据,使用开放NVIDIA 艾萨克·辛(在新选项卡中打开)框架。我们将这些模拟轨迹与商业和公开可用的物理演示数据集相结合。
– 训练能够推理和行动的基础模型需要克服现实世界中多样化数据的稀缺性。通过利用 Azure 上的 NVIDIA Isaac Sim 生成物理上精确的合成数据集,Microsoft Research 正在加速开发 Rho-alpha 等可以掌握复杂操作任务的多功能模型。
—Deepu Talla,NVIDIA 机器人和边缘 AI 副总裁
虽然扩展感知能力可以使 Rho-alpha 在操作过程中调整机器人的行动方案,但机器人仍然可能会犯一些难以挽回的错误。人类操作员可以使用 3D 鼠标等直观的远程操作设备将机器人设置回正轨。我们专注于工具和模型适应技术,使 Rho-alpha 能够在系统运行期间从纠正反馈中学习。
上面的视频展示了由 Rho-alpha 控制的配备触觉传感器的双 UR5e 臂设置,执行插头插入和工具箱包装。在插头插入过程中,右臂难以将插头插入插座,并得到了实时人工指导的帮助。(视频展示了机器人的实时操作速度。)
机器人制造商、集成商和最终用户对新兴物理人工智能技术提供变革潜力的用例和场景有着独特的见解。为了增强这些利益相关者的能力,我们正在致力于开发 Rho-alpha 等基础技术以及相关工具,使他们能够使用自己的数据来训练、部署和持续调整自己的云托管物理人工智能,以适应自己的机器人和场景。
如果您有兴趣尝试并帮助塑造我们物理 AI 基础和工具的未来,表达你的兴趣在我们的研究早期访问计划中。