抢先体验stabilityAI最新发布的stable-Cascade模型+节点-AI资源库

免费下载

模型+节点：

夸克：https://pan.quark.cn/s/164277dd6fd0

迅雷：https://pan.xunlei.com/s/VNxc9byv3o7MZYRUP46nHzrHA1?pwd=yhb8#

来源github作者：Stability-AI

简介

该模型基于Würstchen架构构建，与稳定扩散等其他模型的主要区别在于它在更小的潜在空间中工作。为什么这很重要？潜在空间越小，推理速度就越快，训练成本也就越低。潜在空间有多小？稳定扩散使用压缩因子 8，从而将 1024x1024 图像编码为 128x128。 Stable Cascade 的压缩系数为 42，这意味着可以将 1024x1024 图像编码为 24x24，同时保持清晰的重建。然后在高度压缩的潜在空间中训练文本条件模型。与稳定扩散 1.5 相比，该架构的先前版本实现了 16 倍的成本降低。

因此，这种模型非常适合注重效率的用途。此外，所有已知的扩展（如微调、LoRA、ControlNet、IP 适配器、LCM 等）也可以通过此方法实现。

Stable Cascade由三个模型组成：Stage A、Stage B和Stage C，代表级联生成图像，因此得名“Stable Cascade”。 A 阶段和 B 阶段用于压缩图像，类似于稳定扩散中 VAE 的工作。然而，通过这种设置，可以实现更高的图像压缩。稳定扩散模型使用 8 的空间压缩因子，将分辨率为 1024 x 1024 的图像编码为 128 x 128，而稳定级联模型的压缩因子为 42。这将 1024 x 1024 图像编码为 24 x 24，同时能够准确解码图像。这带来了更便宜的训练和推理的巨大好处。此外，阶段 C 负责在给定文本提示的情况下生成小的 24 x 24 潜伏。下图直观地展示了这一点。

对于此版本，我们为阶段 C 提供两个检查点，两个为阶段 B，一个为阶段 A。阶段 C 提供 10 亿和 36 亿参数版本，但我们强烈建议使用 36 亿版本，因为大多数工作都是投入其微调。 Stage B 的两个版本分别达到 7 亿和 15 亿个参数。两者都取得了很好的成果，但 15 亿人擅长重建微小而精细的细节。因此，如果您使用每个版本的较大变体，您将获得最佳结果。最后，阶段 A 包含 2000 万个参数，并且由于其尺寸较小而被固定。

评估

根据我们的评估，在几乎所有比较中，Stable Cascade 在快速对齐和美观质量方面都表现最好。上图显示了使用部分提示（链接）和审美提示相结合的人类评估结果。具体来说，将 Stable Cascade（30 个推理步骤）与 Playground v2（50 个推理步骤）、SDXL（50 个推理步骤）、SDXL Turbo（1 个推理步骤）和 Würstchen v2（30 个推理步骤）进行了比较。

代码示例

⚠️ 重要提示：要使下面的代码正常工作，您必须diffusers在 PR 尚未完成时从该分支进行安装。

pip install git+https://github.com/kashif/diffusers.git@wuerstchen-v3

import torch
from diffusers import StableCascadeDecoderPipeline, StableCascadePriorPipeline

device = "cuda"
num_images_per_prompt = 2

prior = StableCascadePriorPipeline.from_pretrained("stabilityai/stable-cascade-prior", torch_dtype=torch.bfloat16).to(device)
decoder = StableCascadeDecoderPipeline.from_pretrained("stabilityai/stable-cascade", torch_dtype=torch.float16).to(device)

prompt = "Anthropomorphic cat dressed as a pilot"
negative_prompt = ""

prior_output = prior(
prompt=prompt,
height=1024,
width=1024,
negative_prompt=negative_prompt,
guidance_scale=4.0,
num_images_per_prompt=num_images_per_prompt,
num_inference_steps=20
)
decoder_output = decoder(
image_embeddings=prior_output.image_embeddings.half(),
prompt=prompt,
negative_prompt=negative_prompt,
guidance_scale=0.0,
output_type="pil",
num_inference_steps=10
).images

#Now decoder_output is a list with your PIL images