Flux和Furious:新的图像生成模型在RTX AI PC和工作站上运行最快

2024-10-09 13:01:09 英文原文

作者:Michael Fukuyama

编者按:本文是系列文章的一部分。AI解码系列该内容揭秘了人工智能,使其技术更加易于获取,并展示了新的硬件、软件、工具和加速功能,以供GeForce RTX台式机和NVIDIA RTX工作站用户使用。

图像生成模型——这一流行子集中的生成式AI——可以解析和理解书面语言,然后将文字转换为几乎任何风格的图像。

代表图像生成可能的最前沿,Black Forest Labs 新推出的一系列模型——现在可以在PC和工作站上尝试使用——在运行速度最快的环境中为: GeForce RTX以及 NVIDIA RTXGPU

流动能力

FLUX.1 AI 是由 Black Forest Labs 开发的文本转图像生成模型套件。这些模型基于扩散变压器(DiT)架构构建,使得参数数量众多的模型也能保持高效性。Flux 模型使用 120 亿个参数进行训练,以实现高质量的图像生成。

DiT 模型高效且计算密集型——而 NVIDIA RTX GPU 对处理这些新模型至关重要,其中最大的模型在未经重大调整的情况下无法运行于非 RTX GPU 上。Flux 模型现在支持NVIDIA TensorRT软件开发工具包,可将它们的性能提高多达20%。用户可以使用TensorRT试用Flux和其他模型舒适UI.

一张杂志照片,显示一只猴子在暴风雪中在一个冒着蒸汽的温泉里洗澡。来源:NVIDIA

_flux吸引力_ 注意:"Flux Appeal"直译可能不准确,如果意在传达特定含义或背景信息,请提供更多信息以便更精确地翻译。在此情况下直接给出词面意思并用下划线表示其可能需要上下文调整。原文为"Flux Appeal"时也请确认具体语境。

FLUX.1 在生成高质量、多样化的图像方面表现出色,尤其是在遵循指令的准确性上。这里的“遵循指令”指的是 AI 解释和执行指令的精确度。高指令遵循性意味着生成的图像与文本提示中描述的元素、风格和氛围高度一致。低指令遵循性则可能导致生成的图像在一定程度上或完全偏离给定的指示。

FLUX.1因其能够准确渲染人体解剖结构而著称,包括手和面部等复杂精细的特征。FLUX.1还显著提升了图像中可读文本的生成能力,解决了文字到图像模型中的一个常见挑战。这使得FLUX.1模型适用于需要精确文字表示的应用场景,例如宣传材料和图书封面。

FLUX.AI提供了三种版本,为用户提供了最佳选择以适应他们的工作流程,而不牺牲质量。

  • FLUX.1 pro:为企业用户提供的顶级质量;可通过应用程序编程接口访问。
  • FLUX.1开发版:一个精简、免费的FLUX.1专业版本,仍然提供高质量的功能。
  • FLUX.1 快速版:最快版本,适合本地开发和个人使用;采用宽松的Apache 2.0许可证。

dev和schnell模型是开源的,Black Forest Labs在流行的Hugging Face平台上提供了其权重的访问权限。这通过允许研究人员和开发人员构建并改进这些模型来鼓励图像生成社区内的创新和协作。

被社区接纳

Flux模型的dev和schnell版本在发布不到三周的时间内在HuggingFace上被下载了超过200万次。

用户称赞FLUX.1能够生成视觉效果惊人、细节出色且逼真的图像,同时还能处理复杂的指令,无需进行大量的参数调整。

“一张细节丰富的专业特写照片,展示了一只拟人化的孟加拉虎穿着白色罗纹背心、戴着太阳镜和耳机挂在脖子上,在伊比扎岛的一个户外电子舞蹈音乐节夜晚的舞台上担任DJ,它的前爪放在转盘上;派对氛围,轻烟与刺激的灯光。”来源:NVIDIA
“在一个下雨的傍晚,一条繁华的城市街道上有一辆黄色出租车停在路边,车头灯亮着,在湿漉漉的地面上反射出光芒。一位身穿红色外套的女人站在一把鲜绿色的伞下,正低头看着她的智能手机。左边是一家咖啡店,霓虹灯招牌上用蓝色字母写着“Café Mocha”。这家店铺有大窗户,透过窗户可以看到人们正在享受他们的饮料。街灯照亮了整个区域,在场景中投射出温暖的光芒,而雨滴在空中形成了朦胧的效果。背景处有一座高楼,楼顶的大电子钟显示的时间是晚上8点45分。”来源:NVIDIA

此外,FLUX.1 在处理各种艺术风格方面的灵活性及其快速生成图像的效率使其成为个人和专业项目中都非常有价值的工具。

开始体验

用户可以使用流行的社区网页如ComfyUI访问FLUX.1。该社区运行的ComfyUI 维基包括一步一步的操作指南以帮助开始。

许多YouTube创作者也提供了关于Flux模型的视频教程,比如MDMZ的这个视频:

使用#fluxRTX标签在社交媒体上分享你生成的图片,有机会被NVIDIA AI频道选中展示。

生成式AI正在变革游戏、视频会议以及各种互动体验。通过订阅以了解最新的动态和未来的趋势。AI解码newsletter.

关于《Flux和Furious:新的图像生成模型在RTX AI PC和工作站上运行最快》的评论


暂无评论

发表评论

摘要

编者注:本文是“AI解码”系列的一部分,该系列旨在通过使技术更易于访问来揭开人工智能的神秘面纱,并展示新的硬件、软件、工具和加速器,以供GeForce RTX PC和NVIDIA RTX工作站用户使用。来源:NVIDIA FLUX的魅力 FLUX.1在生成高质量、多样化且高度符合指令的图像方面表现出色,这指的是AI准确理解和执行指令的能力。指令:“一只拟人化的孟加拉虎,穿着白色有筋肋纹背心,戴着太阳镜和挂在脖子上的耳机,在伊比萨岛一个户外电子舞蹈音乐节夜晚的舞台上担任DJ,它的前爪放在唱盘上;派对氛围,缕缕烟雾与刺激性的灯光。”商店有着大窗户,透过窗户可以看到人们在享用饮料。许多YouTube创作者也提供了关于FLUX模型的视频教程,例如MDMZ的这个: 使用#fluxRTX标签分享您生成的图像到社交媒体,有机会被NVIDIA AI频道选中展示。