型号
- 出版
- 作者
我们为物理代理的时代提供动力 - 使机器人能够感知,计划,思考,使用工具并采取行动来更好地解决复杂的多步骤任务。
今年早些时候,我们取得了令人难以置信的进步双子座从双子座机器人技术模型家族。
今天,我们迈出了迈向推进聪明,真正通用的机器人的又一步。我们介绍了两个模型,可以用高级思考来解锁代理体验:
- 双子座机器人技术1.5我们最有能力的视觉语言动作(VLA)模型将视觉信息和说明转换为机器人执行任务的电机命令。该模型在采取行动并显示其过程之前就考虑一下,帮助机器人更透明地评估和完成复杂的任务。它还跨实施方案学习,加速技能学习。
- 双子座机器人技术1.5我们最有能力的视觉语言模型(VLM)关于物理世界的原因,本地称为数字工具,并创建了详细的多步计划以完成任务。现在,该模型在空间理解基准中实现了最先进的性能。
这些进步将有助于开发人员建立更有能力和多功能的机器人,这些机器人可以积极了解其环境,以一般的方式完成复杂的多步骤任务。
从今天开始,我们将Gemini Robotics-er 1.5通过GEMINI API提供Google AI Studio。Gemini Robotics 1.5当前可供选择合作伙伴。阅读有关下一代物理代理的更多有关建造的信息在开发人员博客上。
双子座机器人技术1.5:解锁物理任务的代理体验
大多数日常任务都需要上下文信息和多个步骤才能完成,这使得它们在当今机器人中都充满挑战。
例如,如果要求机器人,请根据我的位置将这些物体排序到正确的堆肥,回收和垃圾箱中?该在代理框架中共同起作用。
我们体现的推理模型Gemini Robotics-1.5,像高级大脑一样精心策划了机器人的活动。该模型在计划和在物理环境中做出逻辑决策方面表现出色。它具有最先进的空间理解,以自然语言进行互动,估算其成功和进步,并且可以像Google搜索寻找信息或使用任何第三方用户定义的功能。
然后,Gemini Robotics-ER 1.5为Gemini Robotics提供了每个步骤的自然语言指令,它使用其视野和语言理解直接执行特定动作。双子座机器人技术1.5还可以帮助机器人思考其更好地解决语义复杂任务的行动,甚至可以在自然语言中解释其思维过程 - 使其决策更加透明。
图显示了我们体现的推理模型,Gemini Robotics-ER 1.5和我们的视觉语言行动模型Gemini Robotics 1.5如何积极地共同努力,在物理世界中执行复杂的任务。
这两种模型都建立在Gemini核心模型家族上,并通过不同的数据集进行了微调,以专门研究各自角色。合并后,它们会提高机器人概括到更长的任务和更多样化的环境的能力。
了解其环境
Gemini Robotics-ER 1.5是针对体现推理优化的第一个思考模型。它在我们受信任的测试人员计划中的实际用例中启发了学术和内部基准的最新性能。
我们在15个学术基准中评估了双子座机器人技术1.5体现的推理问题回答(ERQA)和点板凳,测量指向,图像问题回答和视频问题回答的模型的性能。
请参阅详细信息我们的技术报告。
条形图显示Gemini Robotics-ER 1.5的最先进性能结果与类似模型相比。我们的模型在15个学术体现的推理基准上取得了最高的综合性能,包括点板,ref-Spatial,Robospatial-Pointing,其中2Place,眨眼,CV-BENCH,ERQA,ERQA,EMBSPATIAL,MINDCUBE,MINDCUBE,ROBOSPATIAL-VQA,SAT,SAT,COSMOS-REASEN,MIN VIDEE PAIRE,MIN VIDEE PAIRES,MIN VIDEE PAIRES,MIN VIDEE PAIRES,VSIQA和VSI-BENCE和VSI-BENCE和VSI-BENCE。
GIF的拼贴图显示了一些Gemini Robotics-ER 1.5的功能,包括对象检测和状态估计,分割掩码,指向,轨迹预测和任务进度估计和成功检测。
在表演之前思考
传统上,视觉语言行动模型将指示或语言计划直接转化为机器人的运动。除了简单地翻译说明或计划外,Gemini Robotics 1.5现在可以在采取行动之前思考。这意味着它可以在自然语言中生成内部推理和分析顺序,以执行需要多个步骤或需要更深入的语义理解的任务。
例如,在完成这样的任务时,按彩色对我的洗衣进行排序,以下视频中的机器人在不同的层面上考虑。首先,它知道按颜色排序意味着将白色的衣服放入白色垃圾箱中,并在黑色垃圾箱中添加其他颜色。然后,它考虑了采取步骤,例如拿起红色毛衣并将其放入黑色垃圾箱中,以及涉及的详细运动,例如将毛衣更加靠近移动以更轻松地将其捡起。
在这个多层次思维过程中,视觉语言动作模型可以决定将更简单的任务转换为机器人可以成功执行的简单短段。它还有助于该模型概括地解决新任务,并对环境的变化更加强大。
跨实施方案学习
机器人具有各种形状和大小,具有不同的感应能力和不同程度的自由度,因此很难将动议从一个机器人传递到另一个机器人。
双子座机器人学1.5显示出跨不同实施方案学习的非凡能力。它可以将学习的动作从一个机器人转移到另一个机器人,而无需将模型专门为每个新实施例。这一突破可以加快学习新行为,帮助机器人变得更聪明,更有用。
例如,我们观察到仅呈现给阿罗哈2在培训期间的机器人,也只是在Apptronik的人形机器人上工作,阿波罗和双臂弗兰卡机器人,反之亦然。
我们如何负责任地推进AI和机器人技术
当我们释放体现AI的全部潜力时,我们积极开发了新颖的安全性和对齐方式,以使代理AI机器人能够负责任地部署在以人为中心的环境中。
我们的责任与安全委员会(RSC)以及负责任的发展与创新(REDI)团队与机器人团队合作,以确保这些模型的开发与我们的人工智能原则。
双子座机器人技术1.5通过高级语义推理实施一种整体安全方法,包括在行动之前对安全进行思考,确保通过与现有的对齐方式确保与人类的尊重对话双子座安全政策,并在需要时触发低级安全子系统(例如,避免碰撞)在机器人上。
为了指导我们对双子座机器人技术模型的安全开发,我们还发布了升级Asimov基准,全面的数据集集合,以评估和改善语义安全性,具有更好的尾部覆盖范围,改进注释,新的安全问题类型和新的视频方式。
在我们的安全评估中Asimov基准Gemini Robotics-ER 1.5显示了最先进的表现,其思维能力极大地有助于提高对语义安全性的理解并更好地遵守物理安全约束。
了解有关我们的安全研究的更多信息我们的技术报告或参观我们的安全网站。
在物理世界中解决AGI的里程碑
双子座机器人技术1.5标志着在物理世界中解决AGI的重要里程碑。通过引入代理功能,我们超越了对命令和创建可以真正推理,计划,积极使用工具和推广的系统做出反应的模型。
这是迈向建立机器人的基本步骤,可以通过智慧和敏捷来浏览物理世界的复杂性,并最终变得更有帮助并融入我们的生活。
我们很高兴能在更广泛的研究社区继续这项工作,并能够等待使用我们最新的Gemini Robotics-ER模型来了解机器人技术社区的建设。
探索双子座机器人技术1.5
致谢
This work was developed by the Gemini Robotics team: Abbas Abdolmaleki, Saminda Abeyruwan, Joshua Ainslie, Jean-Baptiste Alayrac, Montserrat Gonzalez Arenas, Ashwin Balakrishna, Nathan Batchelor, Alex Bewley, Jeff Bingham, Michael Bloesch, Konstantinos Bousmalis, Philemon Brakel, Anthony Brohan, Thomas Buschmann, Arunkumar Byravan, Serkan Cabi, Ken Caluwaerts, Federico Casarini, Christine Chan, Oscar Chang, London Chappellet-Volpini, Jose Enrique Chen, Xi Chen, Hao-Tien Lewis Chiang, Krzysztof Choromanski, Adrian Collister, David B. D'Ambrosio, Sudeep Dasari, Todor Davchev, Meet Kirankumar Dave, Coline Devin, Norman Di Palo, Tianli Ding, Carl Doersch, Adil Dostmohamed, Yilun Du, Debidatta Dwibedi, Sathish Thoppay Egambaram, Michael Elabd, Tom Erez, Xiaolin Fang, Claudio Fantacci, Cody Fong, Erik Frey, Chuyuan Fu, Ruiqi Gao, Marissa Giustina, Keerthana Gopalakrishnan, Laura Graesser, Oliver Groth, Agrim Gupta, Roland Hafner, Steven Hansen, Leonard Hasenclever, Sam Haves, Nicolas Heess, Brandon Hernaez, Alex Hofer, Jasmine Hsu, Lu Huang, Sandy H. Huang, Atil Iscen, Mithun George Jacob, Deepali Jain, Sally Jesmonth, Abhishek Jindal, Ryan Julian, Dmitry Kalashnikov, Stefani Karp, Matija Kecman, J. Chase Kew, Donnie Kim, Frank Kim, Junkyung Kim, Thomas Kipf, Sean Kirmani, Ksenia Konyushkova, Yuheng Kuang, Thomas Lampe, Antoine Laurens, Tuan Anh Le, Isabel Leal, Alex X. Lee, Tsang-Wei Edward Lee, Guy Lever, Jacky Liang, Li-Heng Lin, Fangchen Liu, Shangbang Long, Caden Lu, Sharath Maddineni, Anirudha Majumdar, Kevis-Kokitsi Maninis, Andrew Marmon, Sergio Martinez, Assaf Hurwitz Michaely, Niko Milonopoulos, Joss Moore, Robert Moreno, Michael Neunert, Francesco Nori, Joy Ortiz, Kenneth Oslund, Carolina Parada, Emilio Parisotto, Peter Pastor Sampedro, Acorn Pooley, Thomas Power, Alessio Quaglino, Haroon Qureshi, Rajkumar Vasudeva Raju, Helen Ran, Dushyant Rao, Kanishka Rao, Isaac Reid, David Rendleman, Krista Reymann, Miguel Rivas, Francesco Romano, Yulia Rubanova, Pannag R Sanketi, Dhruv Shah, Mohit Sharma, Kathryn Shea, Mohit Shridhar, Charles Shu, Vikas Sindhwani, Sumeet Singh, Radu Soricut, Rachel Sterneck, Ian Storz, Razvan Surdulescu, Jie Tan, Jonathan Tompson, Saran Tunyasuvunakool, Jake Varley, Grace Vesom, Giulia Vezzani, Maria Bauza Villalonga, Oriol Vinyals, René Wagner, Ayzaan Wahid, Stefan Welker, Paul Wohlhart, Chengda Wu, Markus Wulfmeier, Fei Xia, Ted Xiao, Annie Xie, Jinyu Xie, Peng Xu, Sichun Xu, Ying Xu, Zhuo Xu, Jimmy Yan, Sherry Yang, Skye Yang, Yuxiang Yang, HiuHong Yu,Wenhao Yu,Li Yang Ku,Winao Yuan,Yuan Yuan,Jingwei Zhang,Tingnan Zhang,Zhiyuan Zhang,Allan Zhou,Allan Zhou,Guangyao Zhou和Yuxiang Zhou。
Weâd also like to thank: Amy Nommeots-Nomm, Ashley Gibb, Bhavya Sukhija, Bryan Gale, Catarina Barros, Christy Koh, Clara Barbu, Demetra Brady, Hiroki Furuta, Jennie Lees, Kendra Byrne, Keran Rong, Kevin Murphy, Kieran Connell, Kuang-Huei Lee, M. Emre Karagozler, Martina Zambelli, Matthew Jackson, Michael Noseworthy, Miguel Lázaro-Gredilla, Mili Sanwalka, Mimi Jasarevic, Nimrod Gileadi, Rebeca Santamaria-Fernandez, Rui Yao, Siobhan Mcloughlin, Sophie Bridgers, Stefano Saliceti, Steven Bohez,Svetlana Grant,Tim Hertweck,Verena Rieser,Yandong Ji。
为此,我们要感谢:Jean-Baptiste Alayrac,Zoubin Ghahramani,Koray Kavukcuoglu和Demis Hassabis。我们希望认识到Google和Google DeepMind的许多团队,这些团队为这项工作做出了贡献,包括法律,市场营销,沟通,责任和安全委员会,负责任的发展和创新,政策,战略和运营以及我们的业务和公司开发团队。我们要感谢机器人团队中的每个人都没有明确提到上面的支持和指导。最后,我们要感谢Apptronik团队的支持。