NVIDIA 通过新的 AI 和模拟工具推进机器人学习和人形开发

2024-11-06 16:04:28 英文原文

作者:Spencer Huang

机器人开发人员可以大大加快他们在人工智能机器人方面的工作,包括类人生物,使用 NVIDIA 本周在机器人学习大会上公布的新人工智能和模拟工具及工作流程(钴酸锂)在德国慕尼黑。

该产品阵容包括全面上市的NVIDIA 艾萨克实验室机器人学习框架;六个新的人形机器人学习工作流程GR00T项目,一项加速人形机器人开发的举措;以及用于视频数据管理和处理的新世界模型开发工具,包括NVIDIA Cosmos 分词器NVIDIA NeMo 策展人用于视频处理。

开源 Cosmos 标记器通过将图像和视频分解为具有极高压缩率的高质量标记,为机器人开发人员提供卓越的视觉标记化。它的运行速度比当前分词器快 12 倍,而 NeMo Curator 提供的视频处理管理速度比未优化的管道快 7 倍。

与 CoRL 同期,NVIDIA 发表了 23 篇论文和 9 个与机器人学习相关的研讨会,并为开发人员发布了培训和工作流程指南。更远,Hugging Face 与 NVIDIA 宣布他们正在与 LeRobot、NVIDIA Isaac Lab 和英伟达杰特森对于开发者社区。

与 Isaac Lab 一起加速机器人开发 

NVIDIA Isaac 实验室是开源,机器人学习框架建立在NVIDIA Omniverse,一个开发平台开放美元工业数字化应用物理人工智能模拟。

开发人员可以使用 Isaac Lab 大规模训练机器人策略。这种开源的统一机器人学习框架适用于任何实体——从类人机器人到四足动物再到协作机器人——以处理日益复杂的运动和交互。

全球领先的商业机器人制造商、机器人应用开发商和机器人研究实体正在采用 Isaac Lab,包括 1X、敏捷机器人,人工智能研究所,伯克利人形机器人,波士顿动力公司,现场人工智能,傅立叶,加尔博特,学员机器人、Skild AI、Swiss-Mile、Unitree Robotics 和小鹏机器人。

GR00T 项目:通用人形机器人的基础 

构建先进的类人机器人极其困难,需要多层技术和跨学科方法,以使机器人有效地感知、移动和学习技能,以实现人机交互和机器人环境交互。

GR00T项目是一项开发加速库、基础模型和数据管道的举措,以加速全球人形机器人开发者生态系统。

六个新的项目 GR00T 工作流程为人形开发人员提供实现最具挑战性的人形机器人功能的蓝图。它们包括:

  • GR00T-Gen用于构建由 AI 驱动、基于 OpenUSD 的 3D 环境
  • GR00T-模仿者用于机器人运动和轨迹生成
  • GR00T-敏捷用于机器人灵巧操纵
  • GR00T-控制用于全身控制
  • GR00T-移动性用于机器人运动和导航
  • GR00T-感知用于多模态传感

“人形机器人是下一波具身人工智能的浪潮,”NVIDIA 具身人工智能高级研究经理 Jim Fan 表示。–NVIDIA 研究和工程团队正在整个公司和我们的开发者生态系统中合作构建 GR00T 项目,以帮助推动全球人形机器人开发者的进步和发展。 –

世界模型构建者的新开发工具

如今,机器人开发人员正在构建世界模型,即世界的人工智能表示,可以预测物体和环境如何响应机器人的动作。构建这些世界模型的计算和数据密集程度非常高,模型需要数千小时的真实世界、精选图像或视频数据。

NVIDIA Cosmos 分词器提供高效、高质量的编码和解码,以简化这些世界模型的开发。他们设定了最小失真和时间不稳定性的新标准,从而实现高质量的视频和图像重建。

Cosmos 分词器提供高质量压缩和高达 12 倍的更快视觉重建速度,为跨广泛视觉领域的可扩展、稳健和高效的生成应用程序开发铺平了道路。

人形机器人公司 1X 更新了1X 世界模型挑战赛数据集使用 Cosmos 标记器。

“NVIDIA Cosmos 标记器实现了数据的真正高时间和空间压缩,同时仍然保持视觉保真度,”1X Technologies 人工智能副总裁 Eric Jang 说道。– 这使我们能够以计算效率更高的方式训练具有长视野视频生成的世界模型。 –

其他人形和通用机器人开发商,包括小鹏机器人和 Hillbot,正在使用 NVIDIA Cosmos 标记器进行开发,以管理高分辨率图像和视频。

NeMo Curator 现在包含视频处理管道。这使得机器人开发人员能够通过处理大规模文本、图像和视频数据来提高其世界模型的准确性。

由于视频数据规模庞大,管理视频数据带来了挑战,需要可扩展的管道和高效的编排以实现跨 GPU 的负载平衡。此外,过滤、字幕和嵌入的模型需要优化,以最大限度地提高吞吐量。

NeMo Curator 通过自动管道编排简化数据管理,从而显着缩短处理时间,从而克服了这些挑战。它支持跨多节点、多 GPU 系统的线性扩展,有效处理超过 100 PB 的数据。这简化了人工智能开发、降低了成本并加快了上市时间。

推进 CoRL 的机器人学习社区

NVIDIA 机器人团队与 CoRL 发布的近两打研究论文涵盖了以下方面的突破:集成视觉语言模型以改善环境理解和任务执行、时间机器人导航、为复杂的多步骤任务开发长期规划策略以及使用人类演示来获取技能。

人形机器人控制和合成数据生成的开创性论文包括技能生成器,一个基于系统综合数据生成用于以最少的人类演示来训练机器人,以及徘徊,用于控制人形机器人运动和操纵的机器人基础模型。

NVIDIA 研究人员还将参加本次会议的九个研讨会。了解更多关于完整的活动日程。

可用性

NVIDIA Isaac Lab 1.2 现已推出,并在 GitHub 上开源。NVIDIA Cosmos 标记器现已推出GitHub和抱脸用于视频处理的 NeMo Curator 将于本月底推出。新的 NVIDIA Project GR00T 工作流程即将推出,以帮助机器人公司更轻松地构建人形机器人功能。

阅读有关工作流程的更多信息NVIDIA 技术博客

学习使用 Isaac Lab 的研究人员和开发人员现在可以访问开发者指南和教程,包括艾萨克健身房和艾萨克实验室迁移指南

探索最新的机器人学习和模拟即将推出的 OpenUSD 内部直播11月13日机器人仿真与学习,并参加NVIDIA Isaac 实验室办公时间以获得实际支持和见解。

开发者可以申请加入NVIDIA 人形机器人开发者计划

关于《NVIDIA 通过新的 AI 和模拟工具推进机器人学习和人形开发》的评论


暂无评论

发表评论

摘要

NVIDIA 在慕尼黑 CoRL 上宣布推出新工具和工作流程,以加速人工智能机器人(包括人形机器人)的开发。主要产品包括:- 机器人学习框架 NVIDIA Isaac Lab 全面上市。- GR00T 项目下的六个新的人形机器人学习工作流程可加快开发速度。- 新的世界模型开发工具:Cosmos tokenizer(视觉标记化速度加快 12 倍)和 NeMo Curator(视频处理速度加快 7 倍)。- 发布了 23 篇研究论文和 9 个研讨会,以推进机器人学习。这些开发旨在简化和加速先进机器人的创建,为开发人员提供用于复杂任务的高效工具集。