免费下载

模型+节点:

夸克:https://pan.quark.cn/s/164277dd6fd0

迅雷:https://pan.xunlei.com/s/VNxc9byv3o7MZYRUP46nHzrHA1?pwd=yhb8#

来源github作者:Stability-AI

简介


该模型基于Würstchen架构构建,与稳定扩散等其他模型的主要区别在于它在更小的潜在空间中工作。为什么这很重要?潜在空间越小,推理速度就越快,训练成本也就越低。潜在空间有多小?稳定扩散使用压缩因子 8,从而将 1024x1024 图像编码为 128x128。 Stable Cascade 的压缩系数为 42,这意味着可以将 1024x1024 图像编码为 24x24,同时保持清晰的重建。然后在高度压缩的潜在空间中训练文本条件模型。与稳定扩散 1.5 相比,该架构的先前版本实现了 16 倍的成本降低。

因此,这种模型非常适合注重效率的用途。此外,所有已知的扩展(如微调、LoRA、ControlNet、IP 适配器、LCM 等)也可以通过此方法实现。

Stable Cascade由三个模型组成:Stage A、Stage B和Stage C,代表级联生成图像,因此得名“Stable Cascade”。 A 阶段和 B 阶段用于压缩图像,类似于稳定扩散中 VAE 的工作。然而,通过这种设置,可以实现更高的图像压缩。稳定扩散模型使用 8 的空间压缩因子,将分辨率为 1024 x 1024 的图像编码为 128 x 128,而稳定级联模型的压缩因子为 42。这将 1024 x 1024 图像编码为 24 x 24,同时能够准确解码图像。这带来了更便宜的训练和推理的巨大好处。此外,阶段 C 负责在给定文本提示的情况下生成小的 24 x 24 潜伏。下图直观地展示了这一点。

对于此版本,我们为阶段 C 提供两个检查点,两个为阶段 B,一个为阶段 A。阶段 C 提供 10 亿和 36 亿参数版本,但我们强烈建议使用 36 亿版本,因为大多数工作都是投入其微调。 Stage B 的两个版本分别达到 7 亿和 15 亿个参数。两者都取得了很好的成果,但 15 亿人擅长重建微小而精细的细节。因此,如果您使用每个版本的较大变体,您将获得最佳结果。最后,阶段 A 包含 2000 万个参数,并且由于其尺寸较小而被固定。

评估

根据我们的评估,在几乎所有比较中,Stable Cascade 在快速对齐和美观质量方面都表现最好。上图显示了使用部分提示(链接)和审美提示相结合的人类评估结果。具体来说,将 Stable Cascade(30 个推理步骤)与 Playground v2(50 个推理步骤)、SDXL(50 个推理步骤)、SDXL Turbo(1 个推理步骤)和 Würstchen v2(30 个推理步骤)进行了比较。

代码示例

⚠️ 重要提示:要使下面的代码正常工作,您必须diffusers在 PR 尚未完成时从该分支进行安装。

pip install git+https://github.com/kashif/diffusers.git@wuerstchen-v3
import torch
from diffusers import StableCascadeDecoderPipeline, StableCascadePriorPipeline

device = "cuda"
num_images_per_prompt = 2

prior = StableCascadePriorPipeline.from_pretrained("stabilityai/stable-cascade-prior", torch_dtype=torch.bfloat16).to(device)
decoder = StableCascadeDecoderPipeline.from_pretrained("stabilityai/stable-cascade", torch_dtype=torch.float16).to(device)

prompt = "Anthropomorphic cat dressed as a pilot"
negative_prompt = ""

prior_output = prior(
prompt=prompt,
height=1024,
width=1024,
negative_prompt=negative_prompt,
guidance_scale=4.0,
num_images_per_prompt=num_images_per_prompt,
num_inference_steps=20
)
decoder_output = decoder(
image_embeddings=prior_output.image_embeddings.half(),
prompt=prompt,
negative_prompt=negative_prompt,
guidance_scale=0.0,
output_type="pil",
num_inference_steps=10
).images

#Now decoder_output is a list with your PIL images

用途

该模型目前用于研究目的。可能的研究领域和任务包括

  • 生成模型的研究。
  • 安全部署可能生成有害内容的模型。
  • 探索和理解生成模型的局限性和偏差。
  • 艺术品的生成以及在设计和其他艺术过程中的使用。
  • 在教育或创意工具中的应用。

局限性

  • 一般情况下,面孔和人物可能无法正确生成。
  • 模型的自动编码部分是有损的。

Github页面

在线体验地址

https://huggingface.co/spaces/multimodalart/stable-cascade

ComfyUI中使用

当然也有大佬做了一个在comfyui中使用的节点,这并不是官方的,不过也够我们尝鲜体验

安装节点

安装方法还是老样子,你可以在右侧下载节点包,解压后放入ComfyUI_windows_portableComfyUIcustom_nodes目录,也可以打开插件管理器“通过GIT RUL安装”来安装该节点,然后重启

安装成功之后,可以通过搜索关键词“cascade”来添加该节点,此工作流只需一个cascade节点+图像预览保存节点即可运行

注意

首次运行时,需要从huggingface下载大于21G的各种模型,全程需科学上网

下载后的模型并不是保存在comfyui模型文件中,而是保存在“C:Users你的电脑名称.cachehuggingfacehub”

Github页面

传送门

(失效请加V:xkd2310备注SD)

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。