NVIDIA TENSORRT增强稳定扩散3.5在NVIDIA GEFORCE RTX和RTX Pro GPU上的性能

已重塑人们如何创建，想象和与数字内容互动。随着AI模型的能力和复杂性的增长，它们需要更多的VRAM或视频随机访问存储器。

例如，基本稳定扩散3.5大型模型使用超过18GB的VRAM限制可以很好地运行它的系统的数量。

通过将量化应用于模型，可以以较低的精度去除非关键层或运行。NVIDIA GEFORCE RTX 40系列NVIDIA RTX Pro GPU的ADA Lovelace生成支持FP8量化以帮助运行这些量化模型，以及最新的一代Nvidia BlackwellGPU还增加了对FP4的支持。

NVIDIA与稳定性AI合作，量化其最新模型稳定扩散（SD）3.5大，以将VRAM消耗量减少40％。NVIDIA TENSORRT软件开发套件（SDK）双重性能对SD3.5大型和媒介进行进一步优化。

此外，张力已将RTX AI PC的重新构想，将其行业领先的性能与即时（JIT），设备发动机构建和较小的无缝AI部署的包装尺寸相结合，与超过1亿个RTX AI PC相结合。RTX的Tensorrt现在可以作为一个独立SDK对于开发人员。

RTX加速AI

NVIDIA和稳定性AI正在提高性能并减少VRAM要求稳定的扩散3.5，世界上最受欢迎的AI图像模型之一。使用NVIDIA Tensorrt加速和量化，用户现在可以在NVIDIA RTX GPU上更快，更有效地生成和编辑图像。

为了解决SD3.5大型的VRAM限制，将模型用Tensorrt量化为FP8，将VRAM要求降低了40％至11GB。这意味着五个GEFORCE RTX 50系列GPU可以从内存中运行模型，而不仅仅是一个。

SD3.5大型和中型模型还通过Tensorrt进行了优化，Tensorrt是AI的后端，可充分利用张量芯。Tensorrt优化了模型的权重和图形 - 有关如何专门针对RTX GPU运行模型的指令。

与在BF16 Pytorch中运行原始型号相比，FP8 Tensorrt在SD3.5上的2.3倍性能提升，同时使用40％的内存。在SD3.5培养基中，与BF16 Pytorch相比，BF16 Tensorrt的性能提高了1.7倍。

NVIDIA和稳定性AI也正在合作发布SD3.5作为NVIDIA NIM微服务，使创建者和开发人员更容易访问和部署各种应用程序的模型。NIM微服务预计将于7月发布。

在Microsoft Build宣布，并且已经作为新的Windows ML预览中的框架tensorrt for rtx现在可以作为开发人员独立的SDK提供。

以前，开发人员需要为每类GPU进行预生产和包装张力，该过程将产生GPU特定的优化，但需要大量时间。

借助新版本的Tensorrt，开发人员可以创建一个通用的Tensorrt引擎，该引擎在几秒钟内在设备上进行了优化。这种JIT汇编方法可以在安装过程中或初次使用该功能时在后台完成。

易于整合的SDK现在较小8倍，可以通过Windows Microsoft的Windows新的AI推理后端进行调用。开发人员可以从NVIDIA开发人员页面或在Windows ML预览中进行测试。

有关更多详细信息，请阅读此信息NVIDIA技术博客这Microsoft构建回顾。

在NVIDIA GTC巴黎Vivatech欧洲最大的创业和技术活动 - NVIDIA创始人兼首席执行官Jensen Huang昨天在Cloud AI基础设施中的最新突破中发表了主题演讲，代理AI和物理AI。观看重播。

巴黎GTC将持续到6月12日（星期四），由行业领导者领导的动手演示和会议。无论是亲自参加还是在线加入在活动中有很多值得探索的地方。

每个星期，RTX AI车库 博客系列具有社区驱动的AI创新和内容，以了解有关NVIDIA NIM微服务和AI蓝图以及构建的人的更多信息人工智能代理，创意工作流程，数字人类，生产力应用程序等等，以及在AI PC和工作站上的更多信息。

关注NVIDIA工作站LinkedIn和x。一个

看注意关于软件产品信息。