【重磅】超完整的 Stable Diffusion 学习应用指南
2023-08-16 13:22
AIGC研修社
2023-08-16 13:22
订阅此专栏
收藏此文章
写在前面:
朋友忠忠刚写了篇超级详细的 SD 的学习指南特意推荐给大家,忠忠也是上一篇文章里 BDicon 模型的作者,这篇文章一共 7000 字,包括学历路径,案例和资源推荐,十分详细和诚恳。



前言

本文为深圳线下 AIGC 分享会 PPT 与演讲稿实录,主要为了给大家提供一个 Stable Diffusion 学习应用指南,回答为什么要学 SD,怎么学 SD,学了 SD 怎么应用落地等几个问题,其中应用落地案例是我的个人案例,偏向于 B 端设计,但原理相通~各领域设计师都可作为参考之用。
文章较长,有 60+ 张图片和 7000+ 文字,预计阅读时间 20 分钟,可以先保存收藏后再慢慢阅读~

Stable Diffusion 是什么? 

Stable Diffusion 目前唯一能实现精准控制生成图像的本地化部署成熟 AI 绘画工具。在设计工作中可以广泛应用于人像生成、电商营销设计、游戏动漫设计、三维渲染等各种领域。

接下来我们先来看一个视频大概了解一下 Stable Diffusion 生成图片的过程,有一个直观的感受再来讲后面的细节。

当前时间点有很多同学已经使用过了 MJ,但还没有用过 SD,所以经常会有这两个软件有什么差别的问题,该用哪个的问题。先说结论是两个软件各有所长,根据需求选择应用或者组合应用才是最优解。接下来介绍一下两者的差别~

第一个差别是SD 能精准控制而 MJ 不能,我认为这是两者最大的差别,目前只有 SD 能实现通过 ControlNet 插件通过线稿、人物姿势等方式精确控制生成图像的造型,色彩等方面细节。

MJ 生成结果虽然精美,却没有更细致的控制手段。能用 MJ 满足的需求大可以用 MJ,用 MJ 无法满足的需求再考虑 SD 也是不错的选择策略。

进一步来说,SD 可以通过自主训练模型达到更符合需求的风格定制,IP 形象定制等需求,避免同质化输出,而 MJ 只能选择现有模型,难免相对同质化。

第二个差别是SD 免费开源而 MJ 收费闭源,免费开源的 SD 本地化软件部署需要高性能显卡支持,MJ 收了费用也免去了本地高性能显卡支持。

当然,市面上也有很多收费提供 SD 云端部署的服务商,可以提供云服务免去硬件需求,同时按时或按量收费,还有一些特定模型在特定方面的表现很不错。这方面想详细了解可以查看本号之前的文章。

云服务还会带来关键词限制,信息安全等相关问题,这方面 SD 本地化部署有明显优势,不受限制,信息更安全

第三个差别是操作复杂度上 SD 明显比 MJ 复杂一个量级,SD 生成更好的成果往往需要更多的参数、更多的插件、Lora 搭配对应的大模型进行组合应用,而 MJ 只要掌握提示词的编写和有限的几个参数和模型的应用就能做出很不错的效果。

下图为使用 MJ 生成一万张后可以进入的 Web 版本测试页面。

为什么 要学 Stable Diffusion ? 

     专业者的神器,外行者的玩具

先不谈 AI 浪潮如何,如果一个新工具能让我们的某些部分工作有几倍到几十倍的效率提升的话,很明显我们应该学习并且掌握它,而不是固步自封。

当然,AI 浪潮是我们无法忽视的存在,今年阿里 U 设计周和腾讯 TDW 设计周的主题也都是 AI,设计周上分享的专家们用 AI 更低成本的创造出了大量惊艳的作品,也印证了卡兹克这句“专业者的神器”的总结。

TDW 设计周 2023 | DAY1 精彩回顾

而卡兹克本人这个相对电影届专业人士来说的外行,利用图像生成 AI Midjourney+ 视频生成 AI Gen2 玩出了郭导都为之侧目的成果,也充分展现了这个玩具的神奇力量。


综上所述,我认为无论是作为一个专业者,还是一个外行者,都应该学习 AI,了解 AI,掌握并应用 AI。所以,Stable Diffusion 作为 AI 图像生成领域目前最成熟的两个工具之一,值得我们学习,并且应用它来加速我们以前需要大量时间来完成的许多工作。

AI 时代工具日新月异,许多同学会担心刚学完工具不久,这个工具就被时代抛弃了,之前的辛苦白费。经过半年多的了解,我认为短期内Stable Diffusion 在繁荣的开源生态和优秀的新版 SDXL 模型的支持下不仅不会被时代抛弃,而且会越来越好就像同样开源的 Blender,星辰大海的旅程才刚刚启航。

     繁荣的开源生态

Stable Diffusion 社区是目前最繁荣的开源 AI 绘画社区,在 C 站和各大公司内部都有了大量基于 SD 训练的优质模型。

这些优质模型除了依赖 SD 本身的优质底模以外,还需要准备精品训练集,打标处理,花费大量时间精力算力去训练,测试模型质量并调整,最终才能得到可用的优质模型。SD 生态能够繁荣至今,已经消耗了许多不可再生的宝贵资源,是无法被轻易替代的

全球模型站 C 站链接:https://civitai.com/

国内模型站哩布哩布链接:https://www.liblibai.com/

以 ControlNet 为代表的各种好用的插件也是 SD 生态最重要的核心竞争力之一,就像 Sketch、Figma 的插件之于软件本身生态一样,没了插件工作效率要慢上一大半。ControlNet 也是 SD 最重要的精确控制能力的来源,这类插件的开发与适配都是工程量与难度极大的,属于短时间内无法被替代的核心竞争力,不是新出一个模型号称性能比 SD 更好百分之几十就可以抵消的优势。

游戏要结束了:ControlNet 正在补完 AIGC 工业化的最后一块拼图

     值得期待的新版 XL 模型表现

SDXL1.0 版本现在已经正式开源,生成的图片质量各方面表现远超 SD1.5,下图为使用同提示词同参数情况下,SD1.5 与 SDXL 的生成图片质量对比,SDXL 优势十分明显。

然而原生底模往往并不是我们直接用来生成图像的模型,它更多是作为一个基础,然后再经过针对性的微调,大幅度提升某些方面的生成质量后,才作为我们最后真正落地使用的 Ckpt 大模型。

通过下方面同提示词同参数的生成对比图我们可以感受到,微调之后的 ReVAnimate 生成质量比起原生底模 SD1.5 的生成质量有大幅度的提升。

ControlNet 也支持了 Canny 线稿控制模型,其他模型支持正在路上。各路大神也正在基于 SDXL 训练模型过程中,未来的 SDXL 微调后的优秀模型表现能有多精彩?这是很值得期待的一件事,在更多方向的图像生成中比肩甚至超越 MJ 也将不再是难事。

怎么学 Stable Diffusion ? 

聊完了为什么要学Stable Diffusion,我们来聊聊怎么学Stable Diffusion,我将分为 B 站教程推荐、其他学习渠道推荐、学习环境配备三个方面来介绍怎么学习Stable Diffusion

     视频教程推荐

Stable Diffusion首推 B 站 Nenly 同学的教程,制作之精美已经让其他大部分基础教程失去学习的意义了哈哈哈,入门看他这一套就好了,太卷了,具体制作细节可以看下方这个分享视频,令人赞叹的精工细作,值得学习。

在教程的学习路径上,我建议从第一课《20 分钟系统入门 AI 绘画》开始学习,按顺序学完基础更扎实,如果有急需后面的某部分内容的话先看一下也是可以的。






其次是普度众生的秋葉佛祖,大多数小伙伴使用的都是秋葉佛祖提供的 SD 整合包,免去了自己安全部署过程的许多麻烦,节省了好多时间精力,功德无量哈哈。其他 lora 训练等教程和原理教程也都有,质量都非常高,简洁明快,很省时间。
【AI 绘画 / 科普】AI 训练中的黑话都是什么意思?AI 又是如何训练出来的?如何调节参数?不用一行公式带你看懂梯度下降

第三个推荐的是独立研究员 - 星空,教程很多,Dreambooth 训练教程简洁易懂,是一个很好的学习大模型训练的开始。下文是我简单学习的一个笔记给大家概览下课程内容。

Dreambooth 炼丹术流程速览 - 微调 Stable Diffusion 大模型训练画风(一)


第四个推荐的是青龙圣者,LoRA 训练专家,其他教程也有一些,有想学习训练 LoRA 的同学可以重点关注。

第五个推荐的是有参与 Dreambooth 插件开发的飞鸟白菜,有想扩展学习科普原理的可以看一下他的科普教程。

第六个推荐的是小李 xiaolxl,电脑配置不高或者只有 Mac 的同学可以看他的教程学习云端使用 SD 和云端训练模型,他的镜像针对新手的友好快捷操作挺多,使用体验相对更好。


最后一个推荐的是 YouTube 上的教程,我学习了一遍之后认为新手没必要硬啃,B 站教程已经满足大部分学习需求了,除非是训练人像识别可以参考一下。以上结论是针对新手的,高级进阶需求的同学还是可以自主学习的。

     其他学习渠道推荐

AICC 知识库是目前最完善的 SD 知识库之一,我也是共建者,图文的方式可以快速查阅与搜索,有视频比拟不了的优势。

AICC 知识库文档链接:
https://tob-design.yuque.com/kxcufk/sd/gf7b06fzb1do2xql

WEBUI 与插件的 Github 有着作者提供的一手资源,可以作为进阶学习使用,新手学习我认为还是上方的 B 站视频教程更为友好。

Drambooth 插件 wiki 文档链接:
https://github.com/d8ahazard/sd_dreambooth_extension

再推荐几个优质的 AIGC 相关的公众号给大家学习~

逗砂在清华美院分享《AI 绘画可控性研究与应用》,还有苹果党 SD 探索经验,都是很棒的文章,值得学习

AI 绘画可控性研究与应用

如何便宜快捷的用上完整版的 Stable Diffusion

AIGC 专家海辛的公众号更是篇篇精品,每一篇都是中文互联网领域同主题的顶级文章,值得深入学习~

控制名为 AI 的魔法,关于将 AI 绘画融合于工作流的案例和经验。

和 AI 一起做动画 | 将人工智能融入动画工作流的案例和实践经验

     学习环境配置:本地电脑或者云端 SD

在看完教程之后我们就要动手实践,那就需要配置好学习环境。要用上 Stable Diffusion ,有本地部署和云端部署两种方式使用。

按忠忠目前的经验看本地部署的一键整合包要比云端部署的整合包错误更少,自由度更高,win 系统操作也比云端的Liunx系统更方便,能本地部署的尽量本地部署。

但本地部署对于电脑硬件有较高的要求,Mac 电脑全系列体验都不佳,Win 电脑也需要 NVIDIA 卡且显存大于等于 8G 才会有不错的体验,所以云端部署对于没有高配 Win 的同学来说仍然是一个不错的选择(反正咱也没得选了不是)。


本地电脑部署

本地电脑部署对于配置的要求上文已经提过,对于 SD1.5 版本模型来说,6G 显存起步,8G 体验还行,12G 以上畅玩。对于 SDXL 新版模型来说,8G 显存起步,16G 体验还行,24G 以上畅玩,详细信息和要买新电脑的同学可以看下这篇文章。

Stable Diffusion 电脑配置选购指南

显卡以 N 卡为佳,符合配置需求的同学按教程下载安装整合包就可以,顺利的话不会遇到报错,遇到报错了的话可以进文末的交流群交流解决。

【【AI 绘画】Stable Diffusion 整合包 v4.2 发布!全新加速 解压即用 防爆显存 三分钟入门 AI 绘画 ☆可更新 ☆训练 ☆汉化】

https://www.bilibili.com/video/BV1iM4y1y7oA/?share_source=copy_web&vd_source=9888d56a771b940e4ea27d9a5345ec54

除了有高性能 N 卡以外的同学,我全部推荐使用青椒云进行 SD 进行图像生成,我认为这对于新手来说是最佳路径,Mac 同学就不要自己去踩坑浪费好几天然后再无奈放弃,选择使用云端部署了,太浪费时间精力感情了。一定要尝试的同学可以参考下方文章,有提到相关信息。

如何用 Bdicon 大模型低门槛生成 B 端三维图标

云端 SD

云端 SD 有三种类型,第一种是以 AutoDL 为代表的,使用 Linux 系统的云端 SD,第二种种是触手 AI 等二次开发平台为代表的二次开发套壳的精简版 SD,第三种是以青椒云为代表的使用 Win 系统的云端 SD。

我建议新手可以使用第二种精简版 SD 来体验SD 生成图像,用第三种 Win 版 SD进行教程学习和实际工作生产。接下来我将介绍一下三种云端 SD 的优劣势,供给大家参考:

AutoDL 云端 SD 的优点是同性能便宜,有高配置可选,缺点是操作不便。有多不便呢?我的实际体验是基于 Linux 的服务器系统许多操作都要使用代码,很不方便。然后使用过程中的错误也比本地要多,整个过程比本地艰难很多的感觉,不建议新手使用

AutoDL 链接:https://www.autodl.com/home

触手 AI 云端 SD 的优点是操作简便,门槛低,缺点是功能有所精简,不能满足所有生成需求,作为体验和部分生产力可以,但没办法满足全部生成需求。

触手 AI 链接:
https://www.acgnai.com/login?inviteCode=201834&channel=channel_invite
青椒云是目前市场上最适合设计师使用的云端 SD,优点是 Win 系统操作比 AutoDL 简便,缺点是同性能比 AutoDL 贵一点,A4000+300G 硬盘 +20M 带宽一小时 2.5 元,AutoDL 大约 2 元左右。

青椒云链接:

http://account.qingjiaocloud.com/signin?inviteCode=3OF611IT

但是 AutoDL 的系统盘镜像只有 50G,这就导致镜像作者无法预置多个模型,使得用户使用变得更加麻烦,要自己上传搬运模型,所以青椒云虽然略贵了一点,但是整体使用体验便捷很多,我认为是目前的最佳选择。
腾讯云部署 Win 系统 SD 的方案似乎也不错,这方面有待我继续研究,敬请关注本公众号更新,最佳推荐方案会随着时间和研究的变化而变化哈哈。
最后重点强调一下文件传输体验,小规模生成图片还好,大规模几千张的生成,或者炼制大模型会产生几 G 大的文件,那 Autodl 这种 Liunx 系统的云端部署操作体验就很差了,但是青椒云这种 win 系统的云端部署体验就不错。
下方是我写的青椒云的详细使用教程,需要使用云端部署的同学可以按教程操作,青龙大佬也在青椒云开设有镜像,也可以使用。

【Mac 可用】设计师专用云端 SD 镜像保姆级教程!免下载免部署轻松上手!


学会 Stable Diffusion 后怎么用 ? 

学会Stable Diffusion 就要应用落地提升生产力,接下来我以我的应用案例来给大家讲讲我是怎么应用落地的,其他行业的应用原理也是相通的,可以作为参考。


     BDicon 生成三维图标

BDicon 是我炼制的用于 B 端风格三维渲染图生成的大模型,主要使用 ControlNet 进行精准线稿生成,之前有写过一篇文章详细介绍生成细节操作,这里仅展示生成成果和分析。

如何用 Bdicon 大模型低门槛生成 B 端三维图标


图中第一行是文生图生成的,目前仅有部分物品文生图效果比较好,更多的文生图优化还有待后续炼制 XL 版本模型来实现,XL 的文生图能力要好上许多,能清晰认识更多物品和概念。

第二行和第三行都是基于线稿生成的图像,可以根据业务需求自行绘制线稿控制生成结果,真正应用于工作。

下图中是使用简单线稿进行生成的效果,整体已经不错了,但是有些细节造型会有些小扭曲,比如正确勾号,目前的实践解决方案是加大分辨率后出图细节就能得到明显改善。
下图的高分辨率图像的细节造型就有了明显改善,正确勾号造型正确了。但是高分辨率放大也带来了新的问题,比如用户头部多出的造型,和背景元素被重绘的更多更明显了,这些问题可以通过 PSbeta 的 AI 功能去解决。

下方是 BDicon 的用户山卡拉叔叔的实践案例,虽然显卡只是 1660s,但也有不错的效果。显卡只决定能不能跑,跑的有多快,生成的图片质量如何还是要看具体参数设置

下方是小红书用户的实践案例,有了 BDicon 快速满足需求方有个图的需求,轻松下班哈哈

上方的都是简单线稿生成,接下来我们来看一下复杂线稿的生成效果,复杂线稿的具体参数需要对应调整,具体细节可以关注后续更新。


通过替换提示词,可以低成本快速更换色调,一个颜色耗时十分钟左右,比在三维软件中更改色调再重新渲染节约了数十倍的时间。虽然细节还有瑕疵,但要求不高的需求可以用了,要求高的需求也可以可以作为方向性参考与团队先过一遍,确定了再照着这个方向做,对齐双方预期,避免因为预想结果不同造成的反复修改。

     微软风 lora 叠加风格

下图即是文章开头的视频中提到的微软风 LoRA 叠加到 BDicon 上生成的效果,让成图结果带有了明显的柔彩质感。 

多叠加 Lora 也有机会出现神奇的效果,下方是BDicon 的用户山卡拉叔叔叠加了 blindbox, microsoft design,御火 V2,CGgame C4D bsw 等 4 个 LoRA 生成的效果,多样化了许多,这种 LoRA 叠加的权重设置没有明显通用的规则,往往需要靠着对各个 LoRA 的了解来设定和尝试最佳设置。

     训练模型满足特定需求

SD 之于 MJ 的一大区别就是自主训练模型满足特定需求,例如我的 BDicon 和微软风模型就是为了满足 B 端设计所需的三维模型的特定需求而训练的。市场上的人像模型、游戏模型、IP 模型、电商营销模型也都是如此为了满足各自特定的需求而训练的,下方是我写的一些训练模型和应用模型相关经验的文章,有兴趣的可以前往本号文章列表查阅。


Dreambooth 官方炼丹教程万字详解 -Epochs\Batch size\学习率 等超参数调优 (一)


Dreambooth 官方炼丹教程详解 - 影响显存的高级设置(二)

接下来我以得到 AIGC 专家海辛转发推荐的微软风 LoRA 为案例,向大家展示不打标的极简炼丹术的训练思路。本思路可以适用于各种画风迁移到 SD 的需求,不仅局限于 MJ 出品的画风,任何训练集的画风都可以的。

这是 MJ 生成的微软风图标训练集,本次使用了 100 多张这样的图片作为训练集提供给 SD 进行学习,并未进行打标处理,分辨率也是 1024。

这是训练完模型后进行XY 轴测试模型效果的截图,将不同训练成果叠加于不同底模之上,即可直观的感受到不同的表现,然后再根据各方面表现筛选效果最好的那一个,作为最终成品 LoRA 文件发布。

当然,很难一次训练就得到最佳成果,往往需要从基础参数开始,多次调整训练参数才能得到满意的成果。

下图是我训练的另一个暗橙色风格的大模型 SDicon,使用了 50 张素材左右的训练集进行训练,Ckpt 大模型的训练并不一定比 LoRA 难,但对电脑性能和硬盘空间的需求是确定性的更多,一次训练产生几十 G 的文件很正常。


     利用 SD 做其他有趣的事

学会 SD 后,除了应用于正经工作提效以外,我们还可以做些有趣的事情。例如利用 SD 的 AI 能力融合现实中无法融合的物体,轻松五分钟产出以前需要用 PS 辛苦的合成五小时的融合创意图。

我将这种融合创意图应用于我和 B 站合作的 H5 小游戏的效果也挺有意思,这次小游戏为了呼应《塞尔达·王国之泪》游戏上线而做的融合玩法收到的反响还不错,游玩次数也突破了10W+,并且加上多次推翻修改的制作成本依旧只有传统 PS 合成方式的几十分之一,详情可以看我写的这篇总结文章

AI 绘画商用案例:Stable Diffusion 生成 B 站塞尔达 H5 小游戏梗图




SD 的放大能力还能用于放大 MJ 生成的图片,将不足 2k 的图放大为 5k 超清并且合理的增加细节,可以有效提升图片的品质水平。

下图是我生成的银河舰队系列战舰,使用 MJ 生成图片后再到 SD 里添加细节和放大,最后在剪映里组合成视频,最终相关视频全网播放量 50W+,收获了2W 多个赞,也算是很有趣的经历了。



     与视频生成 AI Gen-2 联动

SD 生成图片还可以进一步放入视频生成 AI Gen-2 里进行图生视频的处理,出来的结果也挺有惊喜的。感觉现在 AI 视频的发展程度已经到达 MJ 早期 V1 的阶段了感觉,技术突破应该就在这几年了,下方是使用 Gen-2 生成的一些视频,可以感受一下 AI 视频技术的突破。






总结

以上就是为什么要学 SD,怎么学 SD,学了 SD 怎么应用落地等几个问题的回答了,更多实践案例及落地细节敬请期待后续课程更新,祝大家都能愉快的学会 SD,生成出最棒的作品哈哈~


【免责声明】市场有风险,投资需谨慎。本文不构成投资建议,用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。

AIGC研修社
数据请求中
查看更多

推荐专栏

数据请求中
在 App 打开