kaiyun体育 【AI绘画】全部模型种类总结 / 使用方法 / 简易训练指导——魔导绪论
1 简介
1.1 简介
不同的模特会带来不同的绘画风格,理解不同的概念(人物/物体/动作),这也是为什么会有这么多模特的原因。
我们常说的NovelAI,具体指的是日本NovelAI公司出品的一款二维特化模型。
稳定扩散1.5、2.0和SDXL模型是更通用和现实的模型,不能绘制二维图像。
其他大模型都是在上述模型基础上训练出来的专门模型。
稳定扩散模型
1.2 模型概述
目前常见的模型可以分为两类:大型模型[2]和用于微调大型模型的小模型。
[2] 这里的大型模型特指标准的latent-diffusion模型,它有完整的TextEncoder、U-Net、VAE。
由于对大模型进行细化和微调非常困难,需要很好的显卡和计算能力,所以更多的人选择对小模型进行细化,这些小模型可以通过作用于大模型的不同部分,简单修改大模型来达到目的。
常见的用于微调大模型的小模型分为以下几类:文本反转(俗称Embedding模型)、Hypernetwork模型、LoRA模型。
另外,还有一种模型叫 VAE,一般可以看作是类似于(但不完全等同于)滤波器的东西[3]。它会影响图像的颜色和一些非常小的细节。该模型本身有一个内置的 VAE,但有些融合模型的 VAE 有问题(典型:Anything-v3),需要外部 VAE 来挽救。有时屏幕会因为这个原因变灰。
[3] VAE,变分自编码器。变分自编码器负责将潜在空间中的数据转换为正常图像。
由于模型的种类不同、应用的位置也不同,所以如果要使用这些模型文件,就必须区分这些模型类别,并正确使用相应的方法,模型才能发挥作用。
对于新手来说kaiyun体育登录网页入口,区分这些模型是非常困难的,因为它们都可以有相同的后缀(下一节会详细解释),通常没有专业知识的人应该会简单的通过文件大小来判断模型类别。
为此,我开发了这个工具来快速识别模型类型。只需将模型拖进去即可。
2 模型类型和用途列表
2.1 型号后缀之谜
目前常见的AI绘画模型后缀有以下几种:
1. ckpt,2. pt,3. pth,4. safetensors,5(特殊)嵌入模型:PNG、WEBP 图像格式。
第五个我们先不说,这些后缀的都是标准款,从后缀根本无法判断是哪一种型号。
其中1、2、3是pytorch标准的模型保存格式[2],由于它们采用了Pickle,所以会存在一定的安全风险(百度搜索:pickle反序列化攻击),第四种是一种新的safetensors模型格式,正如它的名字一样,safe,就是为了解决以上几种模型的安全风险而诞生的,safetensors格式和pytorch模型可以通过工具任意转换,只是保存数据的方式不同,内容数据没有任何区别。
[2] 深度学习框架Pytorch
2.2 常见模型类型及使用方法
以下所有模型均可保存为safetensors格式,因此常用格式中不再提及safentensors。
要识别模型类型,请使用此工具:
2.2.1 大型模型
大模型,又称base model,基础模型。常见格式有ckpt,safetensors,总之就是large。大小都是GB级别,常见模型有2G,4G,7G,8G等。
常见的大模型按照版本不同分为SD1.5、SD2、SD2.1、SDXL这几种大模型并不是通用的,我们下载的别人做的各种大模型都是在这些基础版本上进行调整的。
模型大小不代表模型质量,可以剪枝为2G模型,理由如下,有兴趣的可以详细了解。
使用方法:放入此文件夹即可。
在webui左上角选择对应的型号。
有些合并的大模型已经损坏了VAE,屏幕会变灰,此时需要手动选择VAE来使用。
2.2.2 LoRA/LyCORIS
常见格式有pt、ckpt、safetensors。大小一般在8mb~144mb之间。
使用方法:目前有两种使用方法。
一种是作为插件来使用,目前已经废弃,这里就不再提及。
另一个是v1.0以后的版本,原生支持Lora。
模型需要放在models/Lora文件夹下,使用方法如图,点击某个模型之后,提示词列表中会增加类似这样的标签,也可以通过这个标签直接调用Lora模型。
在v1.6之后,界面变成这样
2.2.3Embedding(文本反转)
俗称embedding模型,常见格式有pt、png、webp,大小一般以KB为单位。
常见的有EasyNegative、bad_image等一些negative embedding,用于负面提示词中。
使用方法:
放在这个文件夹里,生成图片的时候需要带上文件名作为tag。
例如上图中的shiratama_at_2-3000.pt模型需要配合标签使用:shiratama_at_2-3000
2.2.4 VAE 模型
常见格式为.pt
使用方法:将其放入models/VAE文件夹中。
放置后,您可以直接在顶栏中找到它
2.2.5 超网络
一般没人用它。
常见的格式是pt,大小一般在几十M到几百M,由于这个模型可自定义的参数非常多,有些离谱的Hypernetwork模型可以达到GB级别。
使用方法:将其放置在如图所示的文件夹中。
3. 模型训练方法简单指导
3.1 LoRA
可训练:风格√ 性格√ 概念√ | 推荐训练:风格、性格
配置要求:显存8GB以上。
训练速度:快 | 训练难度:容易
总体评分:☆☆☆☆☆
评价:这是最推荐给一般用户的模型!非常容易训练,效果很好,配置要求低,图像要求少。
本地训练教程:
云端训练教程:
3.2Embedding(文本反转)
可训练:风格√ 性格√ | 建议训练:性格
配置要求:显存6GB以上。
训练速度:中 | 训练难度:中
总体评分:☆☆
评估:比较基础,2023年之后就不建议训练了,目前用来训练negative embeddings,提高图片效果,替代一些复杂的prompt words。
训练教程:
3.3超网络
可训练:风格√ 性格√ | 推荐训练:风格
配置要求:显存6GB以上。
训练速度:中等 | 训练难度:困难
总体评分:☆☆
评论:不建议进行训练。
训练教程:不再更新
3.4Dreambooth/Native Train
可训练:风格√ 角色√ 概念√ | 推荐训练:Dreambooth 推荐角色kaiyun体育登录网页入口,Native Train 推荐风格
配置要求:显存12GB以上。
训练速度:慢 | 训练难度:易难不一
总体评分:☆☆☆☆☆
评价:微调大型模型kaiyun体育,非常强大的训练方法,但使用起来不太灵活。建议用于训练绘画风格,使用 LoRA 进行角色训练。
训练教程:
总结
本文介绍了不同类型的模型和训练方法。由于时间限制,我无法提供完整的训练教程。
我要评论