免费下载
网盘:https://pan.quark.cn/s/be4acf58b59d
迅雷:https://pan.xunlei.com/s/VNxdBiEi3lecfC6WIhElc3UqA1?pwd=xuwb#
来源github作者:bmaltais
Kohya_ss 是一个元老级的模型训练器,主要为Stable Diffusion训练提供以 Windows 为中心的 Gradio GUI......但对 Linux 操作系统的支持也是通过社区贡献提供的。目前对Macos不是很友好。
GUI 允许您设置训练参数,并生成和运行所需的 CLI 命令来训练模型。
下载包里包含了版本合集,如要升级,请在包里自动升级(科学上网)
安装
1、windows安装条件
注意:安装前首先确定能访问https://huggingface.co/models不然后续下载不了缺失文件,大部分都会报错。
若要在 Windows 系统上安装必要的依赖项,请按照下列步骤操作:
-
安装 Python 3.10。
- 在安装过程中,请确保选择将 Python 添加到“PATH”环境变量的选项。
-
安装 Git。
2、压缩包安装
下载压缩包解压后,找到目录里的.setup.bat双击运行,然后选择1安装kohya_ss,安装过程中,如没出现报错,
运行gui.bat,直到加载出本地网址,最后,复制网址浏览器打开使用。
3、
指令安装(全程科学上网)打开终端并导航到所需的安装目录。通过运行以下命令克隆存储库:
git clone --recursive https://github.com/bmaltais/kohya_ss.git
切换到目录:kohya_ss
cd kohya_ss
通过执行以下命令来运行以下安装脚本之一:
对于仅安装了 python 3.10.11 的系统:
.setup.bat
对于仅安装了多个 python 版本的系统:
.\setup-3.10.bat
在加速配置步骤中,请使用配置期间建议的默认值,除非知道你的硬件需求。
GPU 上的 VRAM 量不会影响使用的值。
可选:CUDNN 8.9.6.50
以下步骤是可选的,但可以提高 NVIDIA 30X0/40X0 GPU 用户的学习速度。这些步骤可以实现更大的训练批量大小和更快的训练速度。
- 运行
.\setup.bat
并选择2. (Optional) Install cudnn files (if you want to use the latest supported cudnn version)
.
SDXL训练参数
- SDXL 的默认分辨率为 1024x1024。
- 可以使用 24GB GPU 内存、批量大小为 1 进行微调。对于 24GB GPU,建议使用以下选项来使用 24GB GPU 内存进行微调:
- 仅训练 U-Net。
- 使用梯度检查点。
- 使用
--cache_text_encoder_outputs
选项和缓存潜在变量。 - 使用 Adafactor 优化器。RMSprop 8bit 或 Adagrad 8bit 可能有效。AdamW 8bit 似乎不起作用。
- LoRA 训练可以使用 8GB GPU 内存(推荐 10GB)完成。为了减少 GPU 内存使用,建议使用以下选项:
- 仅训练 U-Net。
- 使用梯度检查点。
- 使用
--cache_text_encoder_outputs
选项和缓存潜在变量。 - 使用 8 位优化器或 Adafactor 优化器之一。
- 使用较低的暗度(8GB GPU 为-8)。
--network_train_unet_only
强烈建议选择 SDXL LoRA。由于SDXL有两个文本编码器,因此训练的结果将是意想不到的。- PyTorch 2 使用的 GPU 内存似乎比 PyTorch 1 略少。
--bucket_reso_steps
可以设置为 32 而不是默认值 64。小于 32 的值将不适用于 SDXL 训练。
具有固定学习率的 Adafactor 优化器设置示例:
optimizer_type = "adafactor"
optimizer_args = [ "scale_parameter=False", "relative_step=False", "warmup_init=False" ]
lr_scheduler = "constant_with_warmup"
lr_warmup_steps = 100
learning_rate = 4e-7 # SDXL original learning rate
在加速配置步骤中,除非您知道硬件需求,否则请使用配置期间建议的默认值。GPU 上的 VRAM 量对使用的值没有影响。
传送门
如遇失效,请加v:xkd2310备注SD