在常规算法的基础上,我们致力于优化lion算法的参数,以达成更精准的人物脸部模型训练。这一过程的核心目标在于塑造一个与目标人物脸部高度相似的lora角色。
然而,我们面临一个挑战:使用照片进行训练时,由于照片中人物体位的多样性(全身、半身、脸部特写),脸部的占比不尽相同,这可能导致模型在面部特征的学习上有所欠缺,进而影响最终生成图像的面部细节准确性。
一种解决方案是将脸部单独抠出进行训练,以提高脸部的清晰度。但这样做存在一个问题:单独训练脸部无法生成完整的全身图像,或者生成的全身图像中身体比例可能会出现偏差。为了解决这一问题,我们引入了正则化方法。需要注意的是,我所使用的脚本(如秋叶脚本)并不自带这一功能,因此需要手动添加。虽然网上存在关于二次元人物正则化的介绍,但这些内容主要局限于二次元领域,对于真人效果并不理想。因此,我将重点讨论真人图像的正则化训练。
一、设置正则化环境
首先,我们需要在脚本中设置好正则化的目录,并确保其与训练集分开。例如,如果训练集位于“/train/mylora”,则正则化目录应设置为“/train/reg”。
关于正则化数据集的要求如下:
图片数量应不少于训练集(如果多于训练集,程序会随机选择使用)。
数据集名称应与训练集保持一致。
训练轮数应少于训练集。关于具体的最优轮数,目前尚不明确,可能需要根据样本数量进行调整。样本数量较多时,训练轮数可以相对较少;反之,则可以适当增加。
正则化数据集不需要标签文件,即使添加了也会被忽略。
正则化目录的具体形式可以参考相关文档或示例。
二、真人图片的选择与处理
在处理真人图片时,我们首先需要将所有照片中的脸部提取出来,形成一个专注于脸部的训练集。这一步骤可以通过自动化工具(如DFL)实现,也可以手动完成。提取出的脸部图像应居中放置,并占据图片的最大范围,以提高训练效果。
接下来,我们需要通过正则化的手段向这个脸部训练集补充身体部分。需要注意的是,不能简单地使用其他人的身体来补充,因为这样做可能会导致头部与身体之间的比例失调,使得生成的全身图像显得怪异。因此,最理想的方式是使用目标人物自己的身体图片。
我们可以将用于提取脸部的原图进行适当处理,调整尺寸以适应全身图像的需求,然后将其作为正则化数据集的一部分。这些身体图片不需要去除脸部,也不需要添加标签。
在具体操作时,我们可以根据脸部图像的数量来确定正则化数据集中身体图片的数量和重复次数。例如,如果我们有100张脸部图像,我们可以选择将这100张图像重复多次以构成正则化数据集。同时,为了确保模型的充分学习,我们可以适当增加训练轮数。
通过这样的处理方式,我们可以在保持人物脸部特征的同时,补充完整的身体部分,从而生成更加自然、准确的全身图像。
自动打标后,你会发现除了脸上的元素外,没有其他特征标签。(这也是为什么无法生成正确的身体的原因)。加一个自己的标签到脸上(如 mywife)
把刚才那些用来提脸的原图,再次处理成合适的尺寸,如512X768, 不需要打标。数量与脸部一致。
这里有个问题,脸部提取可以使用一些质量较差的照片。你肯定不想用质量较差的身体照片做正则集,难道还要去用其他人的身体吗?其实正则集里的图片如果不足,可以重复使用,不过不要重复太多次就好了。
身体图片不需要去除脸部。
Your training set folder (point the kouhya script for this folder as normal)
+ 10_mywife
+ face01.jpg
+ face02.txt
.... 一共100张
+ reg (the script will ignore this folder normally, point your reg_dir to this folder)
+ 5_mywife
+ 全身01.jpg
+ 全身02.jpg
.... 一共100张(可以适当重复)
这里我们用100张face重复10次,100张全身做reg集,重复5次。
这样一共是1500次,epoch选择10次,每隔2次保存(后面可能过拟合,不一定是最后一次最好)
100张的话32M足够了,不需要改成128M的。dim参数就32/32 就行了,学习率默认。
注意正则里面是没有tag的,这样你就形成了一个有身体,但没有身体的tag,有脸部,有脸部tag的lora。
这样直接调用lora,因为找不到身体的tag,就会自动调用底模的tag,而却因为学习了自己的身体,而正确记忆了身体的比例。
这样一个lora,如果再结合上面的自定义服装lora,就能很好的穿上自定义的服装。