AI教程|Stable Diffusion入门:模型[疯语咒AI]

AI教程|Stable Diffusion入门:模型[疯语咒AI]

前言

“选用适当的模型,随随便便出个图,都要比打上一堆提示词的效果要好。”

高质量的模型,能够成倍提升出图质量。

一、模型之母

现在众多的模型都是基于“Stable Diffusion”模型演变出来的,对!Stable Diffusion就是团队最初开发的模型,也称为“底模型”。它适合画真人、动物、自然、科技、建筑的图像,学习了历史上许多画家的画风。

最初 Stable Diffusion v1是使用512×512像素的图片训练的,因此高于此尺寸的生图品质会变差。后来 Stable Diffusion v2的训练图片宽高提升到了768×768像素。

网络上很多模型都基于Stable Diffusion模型训练而来。每种模型都有自己特定的作用和适合的风格,


Chilloutmix:写实风格的模型,适合画二次元,融合日韩真人与动漫风格的图像。

Deliberate:基于SD-1.5模型,适合生成精致写实风格的人物、动物、自然风景。

Realistic Vision v1.4:写实风人物与动物模型。

Anything万象熔炉 v4.5:适合画动漫图,作者宣称不需要打一堆提示词也能出漂亮的图。

Waifu Diffusion v1.4:是纯粹使用Danbooru图库训练而成,适合画动漫图。

Hentai Diffusion:适合画动漫图,模型已使用大量负向提示词训练过以排除不良结果,另提供embeddings方便绘图时使用。

DreamShaper:是基于SD-1.5模型,生成精细动漫人物与油画风格的模型。

OrangeMix3:混合多种风格的动漫绘图模型,偏写实。

二、civit.com模型社区

全球最出名的就属“C站”(https://civitai.com/),SD模型社区,网址如下:

AI教程|Stable Diffusion入门:模型[疯语咒AI]

它是业内比较成熟的一个 Stable Diffusion 模型社区,上面汇集了上千个模型,以及上万张附带提示词的图像,这大大降低了SD的学习成本。

civit.com上的模型主要分为四类:Checkpoint、LoRA、Textual Inversion、Hypernetwork,分别对应 4 种不同的训练方式。

1、Checkpoint类模型

Checkpoint是真正意义上的stable diffusion模型,也称为“大模型/主模型”,它包含生成图像所需的一切,不需要额外的文件,Checkpoint模型是通过 Dreambooth 训练方式得到的, 特点是出图效果好,但由于训练的是一个完整的新模型,所以训练速度普遍较慢,生成模型文件较大,一般几个 G,文件格式为 safetensors 或 ckpt。

Checkpoint保存了训练过程中产生的所有参数,用于在训练过程中进行模型恢复或迁移,训练后的大模型都可以看作是某个阶段的模型版本,所有Checkpoint=大模型/底模型=dreambooth

目前比较流行的Checkpoint模型有;Anythingv3、Anythingv4.5、AbyssOrangeMix3、counterfeitV2.5、PastalMix、CamelliaMix_2.5D、chilloutMix_Ni_fix、F222、openjourney等。

这些模型是从Stable Diffusion基本模型训练而来的,相当于基于原生安卓系统进行的二次开发。目前,大多数模型都是从 v1.4 或 v1.5 训练的。它们使用其他数据进行训练,以生成特定风格或对象的图像。

Checkpoint模型文件下载对应保存目录:

Stable-Diffusion-webui/

|- /models

|- /Stable-Diffusion

3、Textual Inversion类模型

Textual Inversion又称为(Embedding),一种使用文本提示来训练模型的方法,通过文字生成其对应的潜在向量,可以简单理解为一组打包的提示词,用于生成固定特征的人或事物。特点是对于特定风格特征的出图效果好,模型文件非常小,一般几十 K,但是训练速度较慢,必须与checkpoint模型一起使用,

4、Hypernetwork类模型

类似 LoRA,但模型效果不如 LoRA,是添加到checkpoint模型中的附加网络模块,必须与checkpoint模型一起使用。

Hypernetwork模型文件下载对应保存目录:

Stable-Diffusion-webui/

|- /models

|- /hypernetwork

5、4种模型的推荐排序

模型推荐:Checkpoint > LoRA > Textual Inversion > Hypernetwork

通常情况 Checkpoint 模型搭配 LoRA 或 Textual Inversion 模型使用,可以获得更好的出图效果。

补充:还有一类 VAE 模型,简单理解它的作用就是提升图像色彩效果,让画面看上去不会那么灰蒙蒙,此外对图像细节进行细微调整。

6、Aesthetic Gradient

Aesthetic Gradient是一个功能,它将准备好的图像数据的方向添加到“Embedding”中,将输入的提示词转换为矢量表示并定向图像生成。

7、LyCORIS

LyCORIS可以让LoRA学习更多的层,可以当做是升级的LoRA。

8、Controlnet

人物动作姿势模型,前面已有介绍。
我们通常从c站上可以获取哪些东西:大模型、微调模型、VAE模型、关键词。
Checkpoint模型就属于大模型,

9、VAE

VAE叫做变分自编码器(Variational Autoencoder,VAE)是由Diederik P. Kingma和Max Welling提出的一种人工神经网络结构,属于概率图模式和变分贝叶斯方法,这个解释太过于学术了。

VAE模型有2种功能:

1)滤镜:就像是PS、抖音、美图秀秀等用到的滤镜一样,让出图的画面看上去不会灰蒙蒙的,让整体的色彩饱和度更高。

2)微调:部分VAE会对出图的细节进行细微的调整(个人觉得变化并不明显仅会对细节处微调)

Stable Diffusion在绘画过程中必需要有VAE模型,一般大模型都包含了VAE所以就不需要单独下载VAE。

vae模型文件下载对应保存目录:
Stable-Diffusion-webui/

|- /models

|- /vae

二、模型文件后缀名

PickleTensor.ckpt模型文件参数是不加密且开源的,任何人都可以查看。

SafeTensor.safetensors 模型文件是不开源且被作者加密的,下载后无法读取参数。除非,原作者提供密钥。
Pruning.proued模型文件是神经网络模型文件,是一种神经网络优化技术,通过删除冗余的神经元或者连接来减少神经网络的复杂度,从而提高模型的运行速度和泛化性能,推荐使用proued它泛化性好,存储空间也小。

ema/emaonly,em

ft

SD绘图必备模型名称必须版本
大模型/低模型Stable Diffusionv14.、v1.5、v2.0、v2.1具备通用型、泛化性
VAE模型解码图片在图片生成的最后将图片在潜在空间中的引变量latent variable解码为可以识别的图片大模型一般都自带VAE模型就不用额外挂载
微调模型/fune tuningloRA、embedding、hypernetwork、dreambooth都属于在大模型基础上的微调模型,作用是生成特点风格的图片,根据自己需求使用loRA、embedding、hypernetwork需要配合大模型才能使用
(0)
上一篇 2023年9月20日 下午7:47
下一篇 2023年9月20日 下午10:02

更多相关内容

开始你的AI探索之旅,开启无限可能,学习AI道路上我们一起前进。