作者:22 Oct Written By IT Admin
今天我们发布了Stable Diffusion 3.5,这是迄今为止最强大的模型。此次开放发布包括多个可定制的变体,可在消费级硬件上运行,并且可以在许可宽松的条件下使用。稳定性人工智能社区许可协议您可以从该页面下载Stable Diffusion 3.5 Large和Stable Diffusion 3.5 Large Turbo模型Hugging Face 以及推理代码在 GitHub 现在。
六月,我们发布了Stable Diffusion 3 Medium,这是Stable Diffusion 3系列的首次开源发布。这次发布的质量并未完全达到我们的标准或社区的期望。在听取了宝贵的社区反馈后,我们没有采取快速修复的方式,而是花时间进一步开发了一个版本,以推进我们将视觉媒体转变为更好的使命。
Stable Diffusion 3.5体现了我们致力于为建设者和创作者提供广泛可获取、前沿且大多数用例免费的工具。我们鼓励在整个流程中分发和变现作品——无论是微调、LoRA、优化、应用还是艺术品。
即将发布的内容
Stable Diffusion 3.5提供了多种模型,旨在满足科研人员、业余爱好者、初创企业和企业的需求:
稳定扩散3.5大型版本在拥有80亿参数的情况下,凭借卓越的质量和指令遵从性,这个基础模型是Stable Diffusion家族中最强大的。该模型适用于1兆像素分辨率下的专业应用场景。
稳定扩散3.5大型涡轮版:精简版的Stable Diffusion 3.5 Large只需4个步骤就能生成高质量且高度符合指令的图像,比原版的Stable Diffusion 3.5 Large快得多。
稳定扩散3.5版(将于10月29日发布): 在拥有25亿参数、改进的MMDiT-X架构和训练方法的支持下,该模型被设计为可以直接在消费级硬件上运行,实现了质量和易于定制之间的平衡。它可以生成从0.25到2兆像素分辨率范围内的图像。
开发模型
在开发模型时,我们优先考虑了定制化以提供一个灵活的基础进行构建。为了实现这一目标,我们将查询-键归一化集成到变压器模块中,稳定了模型训练过程并简化了进一步的微调和开发。
为了支持这种下游的灵活性,我们做出了一些权衡。同一个提示使用不同种子时输出的变化可能会更大,这是有意为之,因为它有助于保持基础模型中更广泛的知识库和多样化的风格。然而,作为结果,缺乏具体性的提示可能导致输出不确定性增加,并且美学水平可能有所不同。
对于Medium模型而言,我们对其架构和训练协议进行了几处调整,以增强其质量、连贯性和多分辨率生成能力。
模型表现出色的地方
稳定扩散3.5版本在以下方面表现出色,使其成为市场上最具可定制性和易用性的图像模型之一,同时在指令遵循和图像质量方面保持了顶级性能。
可定制性:轻松微调模型以满足您的特定创意需求,或基于自定义工作流构建应用程序。
高效性能:优化以在标准消费硬件上运行而无需高性能需求,特别是Stable Diffusion 3.5 Medium和Stable Diffusion 3.5 Large Turbo模型。
多样化的输出:创建代表世界的图像,而不仅仅是某一种类型的人,这些图像具有不同的肤色和特征,无需进行大量的提示。
Stability AI社区许可证概览
我们很高兴在我们的许可协议下发布该模型社区版许可证以下是许可证的关键组成部分:
免费用于非商业用途:个人和组织可以免费将该模型用于非商业用途,包括科学研究。
免费用于商业用途(年度收入不超过100万美元):初创公司、小型和中型企业以及创作者可以在其年度总收入低于100万美元的情况下免费用于商业目的。
输出所有权:保留生成的媒体的所有权,而不受限制性许可的影响。
对于年收入超过100万美元的组织,请联系我们。这里咨询企业许可证事宜。
更多访问模型的方式
虽然您现在可以在Hugging Face上获取模型权重以进行自行部署,您也可以通过以下平台访问该模型:
我们对安全的承诺
我们相信安全、负责任的AI实践,并采取谨慎措施确保在开发初期阶段就保持完整性。这意味着我们已经并将继续采取合理措施,防止恶意用户滥用Stable Diffusion 3.5。有关我们的安全性方法,请访问我们的网站 稳定安全页。
即将推出
10月29日,我们将公开发布Stable Diffusion 3.5 Medium。不久之后,ControlNets也将推出,提供适用于各种专业应用场景的高级控制功能。
我们期待收到您对Stable Diffusion 3.5的反馈,并欣赏您使用这些模型所创造的作品。您可以直接通过此渠道与我们分享您的想法。表单.