OC

Knowledge OS
鹦鹉螺口语
Helix 02 简介:全身自主
2026-01-27 00:00:00 · 英文原文

Helix 02 简介:全身自主

介绍螺旋 02

去年,螺旋表明单个神经网络可以通过像素控制人形机器人的上半身。如今,Helix 02 将这种控制扩展到整个机器人 - 将行走、操纵和平衡作为一个连续系统。

Helix 02 是Figure迄今为止最强大的人形模型:单个神经系统直接从像素控制全身,从而实现整个房间的灵巧、长视野自主。Helix 02 代表了多项突破:

  • 自主、长视野机车操纵:Helix 02 在全尺寸厨房中卸载和重新装载洗碗机,这是一项四分钟的端到端自主任务,集成了行走、操纵和平衡,无需重置,也无需人工干预。我们相信这是迄今为止人形机器人自主完成的时间最长、最复杂的任务。

  • 所有传感器输入。所有执行器输出:Helix 02 通过单个统一的视觉运动神经网络将每个机载传感器(视觉、触觉和本体感觉)直接连接到每个执行器

  • 根据人体数据进行类似人类的全身控制:所有结果均由启用系统0,一个学习型全身控制器,经过 1,000 多个小时的人体运动数据和模拟真实强化学习的训练。System 0 用单个神经先验替换了 109,504 行手工设计的 C++,以实现稳定、自然的运动。

  • 新的敏捷等级:借助Figure 03 的嵌入式触觉传感和掌上摄像头,Helix 02 可以执行以前无法实现的操作:提取单个药丸、分配精确的注射器体积以及从杂乱中分离出小的、不规则的物体(尽管有自遮挡)。

视频 1:Figure 机器人执行连续 4 分钟的任务:走到洗碗机处、卸下餐具、穿过房间、将物品堆放在橱柜中、装载并启动洗碗机 - 完全由机载传感器完成,无需人工干预。

挑战:统一人形运动和操纵

几十年来,局部操纵- 机器人以单一、连续的行为移动和操纵物体的能力 - 仍然是机器人技术中最难解决的问题之一。并不是因为任何一种能力单独使用都很困难,而是因为同时使用这两种能力会阻碍彻底分解。举起某物,你的平衡就会改变;向前迈出一步,你的影响范围就会发生变化。手臂和腿不断地相互约束。

人形机器人已经表现出了令人印象深刻的短视行为,例如跳跃、跳舞和瑜伽,但几乎所有机器人都有一个局限性:它们并不是真正可操纵的。大多数系统都是离线重放计划的动作,反馈有限。如果物体移动或接触以不同的方式展开,行为就会崩溃。

传统的机器人技术通过将运动和操纵分离到与状态机缝合在一起的不同控制器来解决这个问题:行走、停止、稳定、到达、抓握、再次行走。这些切换缓慢、难以推理且不自然。

真正的自主性需要一些根本不同的东西:一个可以同时对整个身体进行推理的单一学习系统。一个持续感知、决策和行动的系统——在搬运时行走,在伸手时调整平衡,实时从错误中恢复。 

这就是我们构建 Helix 02 的原因。

Helix 02:统一的全身局部操纵 VLA

Helix 02 通过新的基础层:系统 0 扩展了我们的“系统 1、系统 2”架构。

每个系统都以其自然的时间尺度运行。系统2(S2)慢慢地推理目标:解释场景、理解语言和排序行为。系统1(S1)思考速度快,将感知转化为 200 Hz 的全身关节目标。系统0(S0)以 1 kHz 执行,处理整个身体的平衡、接触和协调。它们共同形成了从像素到扭矩的紧密集成的层次结构。

系统 0:通过人类数据进行类人全身控制

S0 是类人全身控制的基础模型:关于人们如何在保持平衡和稳定的同时移动的先验知识。它是 Helix 02 物理体现的支柱:当高层推理任务和计划时,S0 确保每个动作顺利、安全、稳定地执行。

S0 不是为行走、转身、蹲伏或伸手设计单独的奖励函数,而是直接从大量多样化的运动数据中学习跟踪人体运动。在学习重现这些动作的过程中,该策略学习如何协调力量、调整姿势并在实现一般机车操纵所需的所有行为中保持平衡。

训练数据:超过 1,000 小时的关节级重定向人体运动数据。

架构:10M 参数神经网络,将全身关节状态和基础运动作为输入,并以 1 kHz 输出关节级执行器命令。

模拟训练:S0 完全在超过 200,000 个并行环境中进行了模拟训练,具有广泛的域随机化,从而能够直接转移到真实的机器人并在整个车队中进行推广。

系统 1:“所有传感器输入,所有关节输出”视觉运动策略

在最初的 Helix 中,S1 控制上半身并读取关节状态和图像。在Helix 02中,它连接到所有传感器,并控制整个机器人。

  • 输入:头部摄像头、手掌摄像头、指尖触觉传感器和全身本体感觉。

  • 输出:对整个机器人的完整关节级控制 - 腿、躯干、头部、手臂、手腕和各个手指。

这个像素到整体架构允许 S1 将机器人和环境的完整状态作为单个耦合系统进行推理。手掌摄像头和触觉传感器是新的硬件功能图03。这是我们第一次演示依赖于这些模式的神经网络策略。

掌上相机当物体被头部摄像头遮挡时,提供手上的视觉反馈。触觉传感器嵌入每个指尖的检测力小至三克 - 灵敏到足以感觉到回形针 - 实现接触感知、力调节抓取。这些传感方式使 Helix 能够充分发挥五指手的灵活性潜力,解决需要多指抓取的精细运动控制的复杂操作任务。

S1 仍然是一个以系统 2 潜伏条件为条件的变压器,但现在产生 S0 以 kHz 速率跟踪的全身关节目标。

系统2:场景理解和语言

系统 2 仍然是语义推理层:处理场景、理解语言并为 S1 生成潜在目标。Helix 02 极大地扩展了范围S2 可以指定的行为。以前:–拿起番茄酱。 –现在:

  • “走到洗碗机旁边,打开它”

  • “把碗端到柜台去”

  • “回到最上面的架子上,拿起杯子”

S2不需要规划低级脚步或指定如何协调手臂和腿。它产生一系列潜在语义,S1 将其解释为运动命令,由 S0 执行。

结果:自主长视距局部操纵

Helix 02 可以执行连续的、多分钟的任务,这些任务需要运动、灵活性和传感的完全集成。

我们针对需要全面整合运动、灵活性和传感的任务来评估 Helix 02。下面显示的所有视频都是完全自主的,而不是远程操作的。

在视频 1 中,我们演示了 Helix 02 的扩展机车操作任务:在全尺寸厨房上装载和卸载洗碗机。这种 4 分钟的连续行为代表了迄今为止最复杂的自主操作序列。这是在人形机器人上首次演示如此长的视野、端到端的“像素到全身”控制。

这说明了什么

  • 操纵约束下的运动机器人在行走时握住精致的物体,在每一步中保持稳定的抓握。

  • 充分利用整个身体:当双手被占用时,机器人会用臀部关闭抽屉并用脚抬起洗碗机门 - 使用整个身体作为工具,而不是仅仅依靠双手。

  • 全程双手协调:物体被拾取、在双手之间转移、堆叠和放置,同时双臂作为一个协调系统进行操作。

  • 跨尺度的电机范围。相同的神经网络产生毫米级的手指运动和房间级的运动——跨越四个数量级的动态范围。

  • 长视野测序:61 个局部操纵动作,顺序正确,具有隐式错误恢复功能。机器人在执行的几分钟内保持任务状态。

结果:通过触摸和手持视觉进行灵巧操作

Helix 02 的触觉感应和掌上摄像头可解锁超出纯粹基于视觉的策略的操作任务。我们演示了多指灵活性前沿的四项任务。下面显示的所有视频都是完全自主的,而不是远程操作的。

敏捷任务 1:拧开瓶盖

机器人必须稳定瓶子,同时进行连续、受控的旋转以取下瓶盖,而不会打滑或压碎容器。这需要双手协调并通过触觉调节握力和扭矩控制。

敏捷任务 2:从药箱中找到并取出药丸

机器人必须从组织器中定位并提取单个小药丸,通常是在药丸被头部摄像头遮挡的情况下。这需要手掌级的视觉反馈和触觉引导的精确抓取。

敏捷任务 3:从注射器中准确推入 5 毫升

尽管阻力可变且公差严格,机器人仍必须推进注射器柱塞以分配精确的体积。这需要具有触觉反馈和协调的多指稳定性的力控制驱动。

敏捷任务 4:从杂乱的盒子中挑选金属片

机器人必须从一堆物体重叠、相互遮挡以及在交互过程中移动的小金属部件中提取出来。这需要强大的视觉抓握选择,并在杂乱中通过触觉确认安全接触。这里,图03正在从我们的仓库中卸下真正的金属件BotQ 制造工厂

结论

一年前,Helix 证明单个神经网络可以控制人形上半身。如今,Helix 02 将这一功能扩展到整个机器人。

S0 提供学习的全身控制,S1 将所有传感器连接到所有执行器,S2 实现扩展任务的语义推理,Helix 02 实现了新的目标:连续的、房间规模的自主,无缝地融合了行走和操纵。

结果还处于早期阶段,但它们已经表明了持续的、全身自主性可以实现什么。一项 4 分钟的自主任务,包括 61 个流畅执行的局部操纵动作、通过触觉感应和手掌摄像头实现的灵巧行为,以及使用臀部和脚以及手和手臂的全身协调。

我们渴望看到随着我们继续扩大规模会发生什么。加入我们,共同实现将通用人形机器人带入家庭和全球劳动力的使命。在这里查看我们的空缺职位。

关于《Helix 02 简介:全身自主》的评论

暂无评论

发表评论

摘要

Helix 02 是Figure 最新的人形机器人,能够在无需人工干预的情况下进行自主、长视野运动和操纵任务。它具有统一的神经系统,可以直接从像素控制整个身体,从而实现复杂的行为,例如在整个厨房装载和卸载洗碗机。主要创新包括 System 0,它用基于人体运动数据的学习全身控制取代了传统控制器;用于全身控制的“所有传感器输入,所有执行器输出”视觉运动策略;以及先进的场景理解和语言处理能力。Helix 02 展示了使用触觉传感和手掌摄像头的灵巧操作任务,标志着通用人形机器人的重大进步。