作者:Brian Heater
人物创始人兼首席执行官布雷特·阿德科克(Brett Adcock)星期四揭示针对人形机器人的新机器学习模型。该消息是在Adcock宣布湾区机器人公司两周后到达的。决定离开OpenAI合作,以Helix为中心,Helix是一种通才的视觉语言动作(VLA)模型。
VLA是用于机器人技术的新现象,利用视觉和语言命令来处理信息。目前,该类别的最著名示例是Google DeepMind的RT-2,通过视频和大型语言模型(LLM)的组合来训练机器人。
Helix以类似的方式工作,将视觉数据和语言结合起来提示实时控制机器人。图写道,helix显示出强大的对象概括,能够以不同的形状,尺寸,颜色和物质特性在训练中以自然语言询问以前从未遇到过各种形状,尺寸,颜色和物质特性。
在理想的世界中,您可以简单地告诉机器人做某事,这只会做到这一点。根据数字,这就是螺旋进来的地方。该平台旨在弥合视觉和语言处理之间的差距。在收到自然语言提示之后,机器人在视觉上评估其环境,然后执行任务。
图提供了例如,将饼干袋交给右边的机器人,或者,从左侧的机器人接收一袋饼干,然后将其放在开放的抽屉中。这些示例涉及一对机器人一起工作。这是因为Helix旨在一次控制两个机器人,另一个人协助另一个机器人执行各种家庭任务。
图是通过强调公司在家庭环境中使用其02类人体机器人所做的工作来展示VLM。众所周知,房屋对机器人来说是棘手的,因为它们缺乏仓库和工厂的结构和一致性。
学习和控制的困难是站在复杂机器人系统和房屋之间的主要障碍。这些问题以及五到六位数的价格标签,这就是为什么家用机器人对大多数人形机器人公司不优先的原因。一般而言,这种方法是为工业客户建造机器人,既可以提高可靠性,又要在解决住宅之前降低成本。从现在起几年后,家务劳动是一次对话。
当TechCrunch时旅游人物的湾区办公室2024年,Adcock展示了其人类生物在家庭环境中所采取的一些速度。在当时,这项工作没有得到优先排序,因为数字着重于与宝马这样的公司的工作场所飞行员。
随着周四的Helix公告,数字清楚地表明,房屋本身应该是优先事项。测试这些培训模型是一个充满挑战且复杂的环境。教机器人在厨房中执行复杂的任务 - 例如,在不同的环境中,他们将其打开各种各样的动作。
``对于机器人来说,在家庭中有用,他们需要能够在按需产生智能的新行为,尤其是对于他们从未见过的物体。”–教机器人即使是目前的一种新行为,也需要大量的人类努力:博士级专家手册编程或成千上万的示威活动。”
手动编程将对房屋进行量表。有太多未知数。厨房,客厅和浴室从一个到另一个厨房差异很大。对于用于烹饪和清洁的工具,也可以这样说。此外,人们留下混乱,重新排列家具,并喜欢各种不同的环境照明。这种方法需要太多时间和金钱当然有很多后者。
另一个选择是培训很多。经过训练的机器人臂挑选并将物体放在实验室中,通常使用此方法。您所看到的是,要进行数百小时的重复需要做出足够的演示以承担高度可变的任务。要第一次拿起东西,过去需要做几百次的机器人。
就像目前周围的人形机器人技术一样,在螺旋中的工作仍在很早的阶段。应该建议观众,在幕后发生了许多工作,以创建本文中看到的简短,制作精良的视频。从本质上讲,今天的公告是一种招聘工具,旨在将更多的工程师带入船上以帮助发展该项目。
Brian Heater是TechCrunch的硬件编辑器。他曾在许多领先的技术出版物中工作,包括Engadget,PCMAG,笔记本电脑和技术时报,在那里他担任执行编辑。他的著作出现在Spin,Wired,Playboy,Entertainment Weekly,The Onion,Boing Boing,Publishers Weekly,Daily Beast和其他各种出版物中。他举办了每周的Boing Boing采访播客里尔(Riyl),他是NPR的常规贡献者,并与一只名叫Juniper的兔子共享他的皇后区公寓。