使用 NVIDIA Cosmos 3 开发物理 AI 推理、世界和行动模型 |NVIDIA 技术博客

物理人工智能系统必须先了解现实世界，然后才能在其中采取行动。机器人、自动驾驶车辆和智能空间需要了解其世界中正在发生的事情，预测接下来可能发生的事情，并针对特定环境、实施例和任务生成操作。

NVIDIA宇宙3是物理人工智能的前沿基础模型，它将物理推理、世界生成和动作生成结合在一个开放模型中。

NVIDIA 正在开源 Cosmos 3 模型、训练脚本、部署工具和数据集，以使物理 AI 开发更加开放和可复制。这篇博文涵盖了 Cosmos 3 的基础知识，重点介绍了技术报告，指导技术工作流程，并展示团队如何构建机器人操纵系统，自动驾驶汽车，仓库监控解决方案就可以开始使用了。

A video clip generated by Cosmos 3 for the autonomous driving domain. The video is from a vehicleâ€™s point-of-view at an intersection. Another car crosses the intersection in front of this vehicle, and then the vehicle takes a left turn. The video looks realistic and shows houses, trees, and cars in the surroundings. — *图 1. Cosmos 3 为自动驾驶领域生成的视频片段*

A video shows a corridor with shelves of boxes on either side and a pile of boxes on the ground. Three people are standing next to the pile of boxes. Thereâ€™s a small explosion from one of the boxes on the floor, and it starts smoking.Â — *图 2. 使用 Cosmos 3 生成的视频，用于获取仓库安全数据。*

此版本的主要亮点包括：

NVIDIA Cosmos 3 Nano 和 NVIDIA Cosmos 3 Super 模型检查点抱脸带有代码GitHub。
机器人和自动驾驶等物理人工智能应用的开放数据集。
打开训练后脚本以使 Cosmos 3 适应您的域。
Cosmos NIM 微服务可在 NVIDIA GPU 上轻松、优化部署。

Cosmos 3 中的新增功能

以前的 Cosmos 将独立的世界生成、物理理解和受控场景生成发布到不同的模型和工作流程中。此版本将这些功能与混合变形金刚(MoT) 建筑围绕两座塔楼建造。

推理塔: 一个视觉语言模型(VLM)，解释图像、视频和文本等多模态观察结果。该塔使用自回归架构来解释输入并理解运动、对象交互和其他物理环境。它充当“大脑”，在任何一代发生之前就对世界进行推理。
发电机塔：生成未来的观察结果和行动序列。该塔使用基于扩散的过程来生成物理感知视频和动作输出，这些输出以推理塔的理解为条件。推理机可以独立调用，但生成器始终激活两个塔以进行引导生成。

Cosmos 3 architecture diagram: an autoregressive reasoner tower that takes in text, image, video, audio, and action inputs is connected to a diffusion-based generator tower that outputs text, image, video, audio, and action. Information from the reasoner tower feeds unidirectionally into the generator tower, which enables coherent generation. — *图 3. Cosmos 3 架构*

这种架构使单个模型能够执行推理和生成任务，通过消除多个模型和推理管道之间的编排来简化开发。

选择合适的型号尺寸

目前有两种 Cosmos 3 型号可供选择：

宇宙3纳米是具有 16B 参数的紧凑版本，并针对高效推理进行了优化。它设计为在工作站级计算上运行，例如用于实时机器人推理和物理 AI 应用的 NVIDIA RTX PRO 6000 GPU。
宇宙3超级是专为最高质量和功能而设计的 64B 参数模型。它提供最高的基准分数，并针对 NVIDIA Hopper 和 NVIDIA Blackwell GPU 上的数据中心部署，使其适合大规模合成数据生成和高级物理推理工作负载。

支持的方式

Cosmos 3 通过其统一的架构支持以下输入和输出模式：

输入	输出	应用
文字	图片	物理上合理的图像生成
文字\|视频视频	用于生成罕见边缘情况视频数据的世界模型	文字\|
图片	视频	预测的世界模型
文字\|图片\|视频文字	VLM 推理	行动\|
视频 \|文字视频	动作条件世界模型	视频 \|
文字视频 \|	行动	世界动作模型、视频动作模型、视觉语言动作模型、机器人学习策略模型

表 1. Cosmos 3 针对不同应用支持的输入和输出模式

物理人工智能的开放数据集

随着 Cosmos 3 的发布，NVIDIA 在 Hugging Face 上开源了 6 个合成数据生成 (SDG) 数据集。这些涵盖机器人、物理模拟、空间推理、人体运动、驾驶和仓库环境，可用于训练后 Cosmos 3 和其他模型：

物理人工智能世界模型综合数据集包括：

A collection of videos in the Embodied Robot Scenes dataset. The videos show different humanoid robots doing manipulation tasks in different environments. — *图 4. Embodied Robot Scenes 数据集中的操作示例*

A collection of videos in the Physical Interaction Scenes dataset. The videos show simulated scenes like a wrecking ball hitting objects, a toy tower collapsing, and dominoes falling. For each scene, the dataset has corresponding ground-truth physics annotations like per-object velocity, center-of-mass displacement, and per-frame semantic segmentation. — *图 5. 物理交互场景数据集的示例*

A collection of images showing the Spatial Reasoning dataset, including scenes like kitchens, corridors, offices, and utility rooms. It also includes question-answer pairs like, â€œHow far is the coffee table from the sofa?â€ and â€œWhat is the best route for the robot to reach the study room?â€Â — *图 6. 空间推理数据集的示例*

A collection of videos in the Digital Human Scenes dataset. The videos show some simulated indoor and outdoor environments with digital people standing and moving. These videos provide diverse human appearance, motion, scene context, lighting, and camera motion. — *图 7. 数字人物场景数据集的示例*

A collection of videos from the Autonomous Driving Scenarios dataset. The videos are from the ego point of view of an autonomous vehicle and show the vehicle driving on roads in different scenarios. The videos show diverse weather and lighting conditions and driving behaviors like lane changing and pedestrian interactions. — *图 8. 自动驾驶场景数据集的示例*

A collection of videos from the Warehouse Operations Scenes dataset. The videos show simulated warehouse scenes from different camera angles. Some videos show a forklift moving and colliding with people or objects. In another video, a person drops a cardboard box on the floor.Â Â — *图 9. 仓库运营场景数据集的示例*

NVIDIA Cosmos 人类评估基准

NVIDIA Cosmos 人类评估 (HUE) 框架跨代表性领域任务评估 Cosmos 3 生成器质量。

由于 SOTA 视频生成模型已经饱和了现有的自动排行榜，因此版本之间的分数差异通常太小，无法进行有意义的比较。HUE将评价从主观评分转向客观事实验证，实现顶级模型之间的细粒度比较。其结果是为快速迭代和严格的发布决策提供更可靠的质量信号，并由全面的人工评估支持。

HUE 使用原子二进制验证来评估视频生成质量。每个生成的视频都被分解为跨四个维度的单事实是/否问题——语义对齐、物理定律、几何推理和视觉完整性——跨越七个物理人工智能领域，包括机器人、自动驾驶车辆和物理学。这些问题由 VLM 管道生成，由人类专家改进，并作为开源发布在抱脸。

基准测试结果

Cosmos 3 已在多个基准套件中进行了评估，涵盖物理 AI 推理、生成质量和特定领域的性能。

推理基准

Cosmos 3 Super 和 Cosmos 3 Nano 在 VANTAGE-Bench 上分别在 32B 级别和 8B 级别领先：VANTAGE-长凳

Cosmos 3 是开源 SOTA，目前在 PAI-Bench、R-BenchPhysics-IQ 和 RoboLab 的公共排行榜上处于领先地位：

人工分析

：一个基准测试平台，对文本、图像和视频生成的 AI 模型进行排名。Cosmos 3 是业界领先的开源模型文字转图像排行榜和图像到视频（无音频）排行榜。
R-长凳：评估机器人视频生成中基于视频的世界模型的基准。它通过结构一致性、物理合理性和执行完整性等子指标来评估任务完成情况和视觉质量。
PAI-长凳：一个统一的基准，评估跨视频理解和视频生成的物理人工智能，涵盖机器人、自动驾驶汽车和物理常识等领域。
物理智商：真实世界视频的基准，测试生成视频模型是否真正理解物理原理，而不仅仅是实现视觉真实感。
机器人实验室：用于评估任务通才机器人策略的模拟基准。

训练食谱

Cosmos 3 版本的核心组成部分是一套完全开放的训练方法。除了模型检查点之外，此版本还提供了代码、配置和工作流程，用于使 Cosmos 3 适应新的领域、实施例和数据集。

监督微调 培训后

监督微调 (SFT) 使开发人员能够根据自己的数据调整 Cosmos 3 模型。发布的配方包括自定义视频数据集的视觉生成后训练，以及机器人和物理人工智能工作流程的面向行动的配方。开发人员可以针对机器人、自动驾驶和仓库自动化等目标领域定制 Cosmos 3。的

训练后代码和配置可以在 GitHub 上找到。训练后动作

动作后训练使 Cosmos 3 适应动作感知的物理 AI 应用，包括前向动态、逆向动态和策略生成。

开发人员可以使用带有动作标记的数据对 Cosmos 3 进行后期训练。对于机器人应用程序，这包括几个重要的工作流程：生成以机器人动作为条件的未来观察结果，推断观察到的演示背后的动作，以及根据当前观察结果和任务提示预测动作序列。这使得 Cosmos 3 成为世界行动建模和政策学习的坚实基础。

视频 1. 教程视频展示了如何对 Cosmos 3 进行后期训练

使用 NVIDIA NIM 微服务进行部署

Cosmos 3 型号也可作为NVIDIA NIM 微服务用于优化、生产就绪的部署。NIM 微服务将模型与优化的推理运行时打包在一起，无需手动调整服务基础设施即可提供高性能。与 GitHub 上的 Cosmos 3 存储库相比，NIM 微服务更容易用于推理工作流程，后者是训练后工作流程的首选。

Cosmos 3 Reasoner NIM 现已上市，提供 Cosmos 3 模型的推理功能。请随时关注 Cosmos 3 Generator NIM，它提供了 Cosmos 3 模型的完整生成功能。

为加速推理而进行的优化

量化：Cosmos 3 NIM 支持选择BF16、FP8 或 NVFP4量化检查点。NVFP4 量化将模型的数值精度从 BF16 降低到 4 位浮点，实现高达 2 倍的推理加速。
法学硕士：是一个开源推理引擎，使用连续批处理、分页注意力和张量并行等技术来有效地为法学硕士提供服务。Cosmos 3 Reasoner NIM 服务堆栈基于 vLLM 构建，与传统服务方法相比，吞吐量更高。Cosmos 3 Nano 已准备好与 vLLM-omni 和 NVIDIA Dynamo 一起运行，以获得最佳性能。
高效视频采样 (EVS)：该技术减少了推理期间输入 VLM 的视频令牌数量，从而加快了 Cosmos Reason NIM 的速度。EVS 在块级别工作，保留每个帧中最独特的块并修剪其余部分。较小的 GPU 往往会从该技术中受益更多。

如何运行 NIM

需要 NVIDIA NGC API 密钥才能提取容器并从 NGC 下载 Cosmos 3 模型。

拉取并运行 Cosmos 3 Nano Reasoner NIM。对于 Cosmos 3 Super Reasoner NIM，指定NIM_MODEL_SIZE=超级。

docker run --gpus=all \-e NGC_API_KEY=$NGC_API_KEY \-e NIM_MODEL_SIZE=纳米\-p 8000:8000 \nvcr.io/nim/nvidia/cosmos3-reasoner：最新

有关 API 使用情况的详细信息以及更多信息，请参阅文档。

视频 2. 演示如何使用 Cosmos Reasoner NIM 的教程视频

开始使用

下载 Cosmos 3 Nano 和 Super 检查点：抱脸。
查找示例和代码宇宙 3 GitHub。
尝试一下Cosmos 3 Nano Reasoner 模型体验和Cosmos 3 Nano模型体验。
加入社区、公开问题并为 GitHub 上的 Cosmos 生态系统做出贡献不和谐。

致谢

Cosmos 3 是 NVIDIA 众多团队和人员通力合作的成果，其中包括 Aditi、Niket Agarwal、Arslan Ali、Jon Allen、Martin Antolini、Adeline Aubame、Alisson Azzolini、Junjie Bai、Maciej Bala、Yogesh Balaji、Josh Bapst、Aarti Basant、Mukesh Beladiya、Mohammad Qazim Bhat、Zaid Pervaiz Bhat、DanBlick、Vanni Brighella、Han Cai、Tiffany Cai、Eric Cameracci、Jiaxin Cao、Yulong Cao、Mark Carlson、Carlos Casanova、Ting-Yun Chang、Yan Chang、Yu-Wei Chao、Prithvijit Chattopadhyay、Roshan Chaudhari、Chieh-Yun Chen、Junyu Chen、Ke Chen、Qizhi Chen、Wenkai Chen、Xiaotong Chen、Yu Chen、An-Chieh Cheng、Click Cheng、Xiu Chia、Jeana Choi, Chaeyeon Chung, Wenyan Cong, Yin Cui, Magdalena Dadela, Nalin Dadhich, Wenliang Dai, Joyjit Daw, Alperen Degirmenci, Rodrigo Vieira Del Monte, Robert Denomme, Sameer Dharur, Marco Di Lucca, Ke Ding, Wenhao Ding, Yifan Ding, Yuzhu Dong, Nicole Drumheller, Yilun Du, Aigul Dzhumamuratova,Aleksandr Efitorov、Hamid Eghbalzadeh、Naomi Eigbe、Imad El Hanafi、Hassan Eslami、Benedikt Falk、Jiaojiao Fan、Jim Fan、Amol Fasale、Sergiy Fefilatyev、梁峰、Francesco Ferroni、Sanja Fidler、Xiao Fu、Vikram Fugro、Prashant Gaikwad、TJ Galda、Katelyn Taka、Yihuai Gang、葛文航、Sreyan Ghosh、Arushi Goel、Vivek Goel、Akash Gokul、Rama Govindaraju、Jinwei Gu、Miguel Guerrero、ElfieGuo、Aryaman Gupta、Siddharth Gururani、Hugo Hadfield、宋瀚、Ankur Handa、Zekunhao、Mohammad Harrim、Ali Hassani、Nathan Hayes-Roth、Yufan He、Chris Helvig、CyrusHogg、Madison Huang、Michael Huang、Sophia Huang、Yufan Huang、Jacob Huffman、DeLesley Hutchins、Suneel Indupuru、Boris Ivanovic、Arihant Jain、Joel Jang、Ryan Ji、Yananjian、Dongfu Jiang、Jingyi Jin、Atharva Joshi、Nikhilesh Joshi、Pranjali Joshi、Jaehun Jung、Weiwei Kang、Scott Kassekert、Jan Kautz、AshnaKhetan、Julia Kiczka、Slawek Kierat、Gwanghyun Kim、Kuno Kim、Sunny Kim、Kezhi Kong、Xin Kong、Zhifeng Kong、Tomasz Kornuta、Egor Krivov、Hui Kuang、Saurav Kumar、Chia-Wen Kuo、George Kurian、Wojciech Kutak、JF Lafleche、Himangshu Lahkar、Omar Laymoun、Jayjun Lee、Sanggil Lee、Gabriele Leone、李博一、李嘉君、李金峰、李凌、李鹏程、李尚儒、李婷乐、李小龙、李旋、李兆硕、李志奇、梁浩、廖茂盛、林晨轩、林宗义、刘明宇、刘思飞、刘子涵、陆海禄、陆翔宇、Alice Luo、罗瑞普、罗文杰、蒋然Lyu、Martin Ding Ma、Nic Ma、Qianli Ma、Dawid Majchrowski、Louis Marcoux、Miguel Martin、Qing Miao、Ashkan Mirzaei、Shreyas Misra、Kaichun Mo、Durra Mohsin、Hyejin Moon、Pawel Morkisz、Saeid Motiian、Kirill Motkov、Seungjun Nah、Yashraj Narang、Deepak Narayanan、Thabang Ngazimbi、Julian欧阳、David Page、庞雅天、Sehwi Park、Mahesh Patekar、Mostofa Patwary、Marco Pavone、Trung Pham、Wei Ping、Soha Pouya、Shrimai Prabhumoye、Varun Praveen、Delin Qu、Hesam Rabeti、Morteza Ramezanali、Marilyn Reeb、Xuanchi Ren、Kristen Rumley、Wojciech Rymer、Jun Saito、YeonghoSeol、John Shao、Piyush Shekdar、Tianwei Shen、Humphrey Shi、Min Shi、Stella Shi、Kevin Shih、Mohammad Shoeybi、Mateusz Sieniawski、Shuran Song、Alexander Sotelo、Amir Sotoodeh、Sunil Srinivasa、Vignesh Srinivasakumar、Bartosz Stefaniak、Rahul Heinrich Steiger、Shangkun Sun、嘉祥唐、Shitao Tang、YangyangTang, Yue Tang, Tolou Tavakkoli, Kayley Ting, Krzysztof Tomala, Wei-Cheng Tseng, Jibin Varghese, Sergei Vasilev, Thomas Volk, Raju Wagwani, Roger Waleffe, Andrew Z. Wang, 王博翔, 王浩翔, 王巧, 王世豪, 王世杰, 王廷春, 王岩, 王宇, David Wehr, Fangyin Wei, Xinshuo翁、Jay 张杰吴、吴克迪、夏红池、肖夏、肖天军、谢凯文、徐大光、徐嘉树、徐梦瑶、徐如青、徐兴干、徐耀、杨鼎浩、杨东、杨汉斯、杨晓东、杨旭宁、杨一初、尤蓉、余志鼎、袁浩、袁世强、曾晓辉、泽仁彭措、查欣迪、张浩天、Jenny 张、Jing 张、张良凯、Paris 张、张顺、张宣萌、张志正、赵安、赵一琳、Yuliya Zhatouskaya、Charles Zhou、Fengzhe Zhou、Shilin Zhu、Yuke Zhu、Dima Zhylko 和 Artur Zolkowski。.

OC