前言
“选用适当的模型,随随便便出个图,都要比打上一堆提示词的效果要好。”
高质量的模型,能够成倍提升出图质量。
一、模型之母
现在众多的模型都是基于“Stable Diffusion”模型演变出来的,对!Stable Diffusion就是团队最初开发的模型,也称为“底模型”。它适合画真人、动物、自然、科技、建筑的图像,学习了历史上许多画家的画风。
最初 Stable Diffusion v1是使用512×512像素的图片训练的,因此高于此尺寸的生图品质会变差。后来 Stable Diffusion v2的训练图片宽高提升到了768×768像素。
网络上很多模型都基于Stable Diffusion模型训练而来。每种模型都有自己特定的作用和适合的风格,
Chilloutmix:写实风格的模型,适合画二次元,融合日韩真人与动漫风格的图像。
Deliberate:基于SD-1.5模型,适合生成精致写实风格的人物、动物、自然风景。
Realistic Vision v1.4:写实风人物与动物模型。
Anything万象熔炉 v4.5:适合画动漫图,作者宣称不需要打一堆提示词也能出漂亮的图。
Waifu Diffusion v1.4:是纯粹使用Danbooru图库训练而成,适合画动漫图。
Hentai Diffusion:适合画动漫图,模型已使用大量负向提示词训练过以排除不良结果,另提供embeddings方便绘图时使用。
DreamShaper:是基于SD-1.5模型,生成精细动漫人物与油画风格的模型。
OrangeMix3:混合多种风格的动漫绘图模型,偏写实。
二、civit.com模型社区
全球最出名的就属“C站”(https://civitai.com/),SD模型社区,网址如下:
它是业内比较成熟的一个 Stable Diffusion 模型社区,上面汇集了上千个模型,以及上万张附带提示词的图像,这大大降低了SD的学习成本。
civit.com上的模型主要分为四类:Checkpoint、LoRA、Textual Inversion、Hypernetwork,分别对应 4 种不同的训练方式。
1、Checkpoint类模型
Checkpoint是真正意义上的stable diffusion模型,也称为“大模型/主模型”,它包含生成图像所需的一切,不需要额外的文件,Checkpoint模型是通过 Dreambooth 训练方式得到的, 特点是出图效果好,但由于训练的是一个完整的新模型,所以训练速度普遍较慢,生成模型文件较大,一般几个 G,文件格式为 safetensors 或 ckpt。
Checkpoint保存了训练过程中产生的所有参数,用于在训练过程中进行模型恢复或迁移,训练后的大模型都可以看作是某个阶段的模型版本,所有Checkpoint=大模型/底模型=dreambooth
目前比较流行的Checkpoint模型有;Anythingv3、Anythingv4.5、AbyssOrangeMix3、counterfeitV2.5、PastalMix、CamelliaMix_2.5D、chilloutMix_Ni_fix、F222、openjourney等。
这些模型是从Stable Diffusion基本模型训练而来的,相当于基于原生安卓系统进行的二次开发。目前,大多数模型都是从 v1.4 或 v1.5 训练的。它们使用其他数据进行训练,以生成特定风格或对象的图像。
Checkpoint模型文件下载对应保存目录:
Stable-Diffusion-webui/
|- /models
|- /Stable-Diffusion
3、Textual Inversion类模型
Textual Inversion又称为(Embedding),一种使用文本提示来训练模型的方法,通过文字生成其对应的潜在向量,可以简单理解为一组打包的提示词,用于生成固定特征的人或事物。特点是对于特定风格特征的出图效果好,模型文件非常小,一般几十 K,但是训练速度较慢,必须与checkpoint模型一起使用,
4、Hypernetwork类模型
类似 LoRA,但模型效果不如 LoRA,是添加到checkpoint模型中的附加网络模块,必须与checkpoint模型一起使用。
Hypernetwork模型文件下载对应保存目录:
Stable-Diffusion-webui/
|- /models
|- /hypernetwork
5、4种模型的推荐排序
模型推荐:Checkpoint > LoRA > Textual Inversion > Hypernetwork
通常情况 Checkpoint 模型搭配 LoRA 或 Textual Inversion 模型使用,可以获得更好的出图效果。
补充:还有一类 VAE 模型,简单理解它的作用就是提升图像色彩效果,让画面看上去不会那么灰蒙蒙,此外对图像细节进行细微调整。
6、Aesthetic Gradient
Aesthetic Gradient是一个功能,它将准备好的图像数据的方向添加到“Embedding”中,将输入的提示词转换为矢量表示并定向图像生成。
7、LyCORIS
LyCORIS可以让LoRA学习更多的层,可以当做是升级的LoRA。
8、Controlnet
人物动作姿势模型,前面已有介绍。
我们通常从c站上可以获取哪些东西:大模型、微调模型、VAE模型、关键词。
Checkpoint模型就属于大模型,
9、VAE
VAE叫做变分自编码器(Variational Autoencoder,VAE)是由Diederik P. Kingma和Max Welling提出的一种人工神经网络结构,属于概率图模式和变分贝叶斯方法,这个解释太过于学术了。
VAE模型有2种功能:
1)滤镜:就像是PS、抖音、美图秀秀等用到的滤镜一样,让出图的画面看上去不会灰蒙蒙的,让整体的色彩饱和度更高。
2)微调:部分VAE会对出图的细节进行细微的调整(个人觉得变化并不明显仅会对细节处微调)
Stable Diffusion在绘画过程中必需要有VAE模型,一般大模型都包含了VAE所以就不需要单独下载VAE。
vae模型文件下载对应保存目录:
Stable-Diffusion-webui/
|- /models
|- /vae
二、模型文件后缀名
PickleTensor.ckpt模型文件参数是不加密且开源的,任何人都可以查看。
SafeTensor.safetensors 模型文件是不开源且被作者加密的,下载后无法读取参数。除非,原作者提供密钥。
Pruning.proued模型文件是神经网络模型文件,是一种神经网络优化技术,通过删除冗余的神经元或者连接来减少神经网络的复杂度,从而提高模型的运行速度和泛化性能,推荐使用proued它泛化性好,存储空间也小。
ema/emaonly,em
ft
SD绘图必备 | 模型名称 | 必须 | 版本 | ||
大模型/低模型 | Stable Diffusion | 是 | v14.、v1.5、v2.0、v2.1 | 具备通用型、泛化性 | |
VAE模型 | 解码图片 | 是 | 在图片生成的最后将图片在潜在空间中的引变量latent variable解码为可以识别的图片 | 大模型一般都自带VAE模型就不用额外挂载 | |
微调模型/fune tuning | loRA、embedding、hypernetwork、dreambooth | 否 | 都属于在大模型基础上的微调模型,作用是生成特点风格的图片,根据自己需求使用 | loRA、embedding、hypernetwork需要配合大模型才能使用 |