2025年4月1日
[[读取时间]]最低阅读
在双子座机器人模型的支持下,机器人可以学习复杂的动作,例如准备沙拉,玩tic-tac-toe之类的游戏,甚至折叠折纸狐狸。
一般摘要
Google DeepMind发布了一个新的双子座机器人机器人模型,旨在为机器人提供动力。这些模型经过大量数据的培训,可以执行各种任务,包括了解自然语言,识别对象并以灵巧性来操纵它们。这些模型可用于受信任的测试人员和合作伙伴,Google DeepMind认为它们有可能彻底改变机器人技术,从而使机器人在包括房屋和工作场所在内的各种环境中更有用。
摘要由Google AI生成。生成的AI是实验性的。
正如Google DeepMind准备它最近的公告它是专门为机器人设计的新型Gemini 2.0型号的家族,其机器人的负责人Carolina Parada召集了她的团队,以再次检查技术的能力。
他们询问了双臂Aloha机器人 - 二人组合具有多个关节的弯曲金属附属物,并且在研究中广泛使用了类似钳子的手,用于执行以前从未完成过的任务,使用它没有看到的对象。卡罗来纳州说:``我们做了随机的事情,例如把鞋子放在桌子上,要求它把一些笔放在里面。”机器人花了一点时间来理解任务,然后做到了。
对于下一个要求,他们找到了一个玩具篮球篮球和球,并要求机器人做一个大满贯的扣篮。
卡罗来纳州说,目睹扣篮是一个令人惊叹的时刻。
卡罗来纳州说:``我们训练有素的模型,以帮助机器人完成特定任务并了解自然语言,但这是一个步骤的变化。”机器人从未见过与篮球或这个特定玩具有关的任何东西。然而,它理解了一些复杂的东西 - 猛击球,并顺利地执行了动作。第一次尝试。
这个全能机器人由双子座机器人技术是用于机器人技术的新型多模型系列的模型。模型基于双子座2.0通过使用特定于机器人的数据进行微调,将物理动作添加到双子座的多模式输出中,例如文本,视频和音频。Google首席执行官Sundar Pichai说:“这个里程碑为下一代机器人技术奠定了基础在x上宣布新型号。
Gemini机器人技术模型是高度敏捷,交互式和一般性的,这意味着它们可以驱动机器人对新对象,环境和指令做出反应,而无需进一步训练。考虑到团队的野心,有帮助。
卡罗来纳州说,我们的任务是建立动力机器人体现的动力机器人,以帮助您完成现实世界中的日常任务。最终,机器人将只是我们与AI相互作用的另一个表面,例如我们的手机或计算机。
像人一样,机器人需要两个主要功能来有效,安全地执行任务:理解和做出决策的能力以及采取行动的能力。Gemini Robotics-ER是“基于Gemini 2.0 Flash建立的体现的推理模型”,专注于前者,识别其前面的元素,定义它们的大小和位置,并预测移动它们所需的轨迹和抓地力。然后,它可以生成代码来执行该动作。我们现在可以使该模型可用于可信赖的测试人员和党派伙伴。
Google DeepMind还引入了Gemini机器人技术,即最先进的视觉语言动作模型,该模型使机器人可以对场景进行推理,与用户互动并采取行动。至关重要的是,它在证明机器人主义者很棘手的领域取得了重大进步:敏捷。卡罗来纳州解释说,对于机器人来说,人类很难自然而然。”敏捷性既需要空间推理,又需要复杂的物理操作。在整个测试中,双子座机器人技术为敏捷设定了新的最新技术,以平稳的动作和良好的完成时间来解决复杂的多步骤任务。”
Gemini Robotics-ER在体现的推理功能方面表现出色,包括检测对象并指向对象零件,查找相应的点并在3D中检测对象。
机器由双子座机器人技术提供动力,准备了沙拉,挤满了孩子的午餐,玩过tic-tac-toe之类的游戏,甚至折叠了折纸狐狸。
准备可以执行许多不同任务的模型是一个挑战 - 主要是因为它与培训模型的一般行业实践背道而驰单身的一遍又一遍地任务直到可以解决。卡罗来纳州说,相反,我们选择了广泛的任务学习,培训模型。我们期望在一定时间后看到概括,我们是对的。
两种模型都可以适应多个实施例,包括以学术为中心的机器人,例如Bi-Arm Aloha Machine,或者像我们的合作伙伴Apptronik开发的Apollo这样的人形机器人。
这些型号适合不同的实施例,能够执行诸如打包午餐盒或以不同形式擦拭白板之类的任务。
这种适应能力是机器人可以扮演许多截然不同的角色的关键。
卡罗来纳州说:``卡罗来纳州说,使用高度通用和能力的模型的机器人的可能性是广泛而令人兴奋的。”在设置很复杂,精度很重要的行业中,它们可能更有用,并且空间对人类友好。它们在以人为本的空间(例如房屋)中可能会有所帮助。还有几年的时间,但是这些模型将我们带到了几步之遥。
听起来最终有人会在这些琐事方面得到一些帮助。