探索 StableDiffusion：天生高质量图片学习及应用

显示全部楼层 · 2023-8-16 16:32:43

本文告急先容了 StableDiffusion在图片天生上的内容，然后详细说明白StableDiffusion 的告急术语和参数，并探讨了怎样利用 prompt 和高级技巧（如图像修复、练习自界说模子和图像编辑）来天生高质量的图片。

先容StableDiffusion

  ▐  StableDiffusion是什么

  Stable Diffusion是一种潜伏的文本到图像扩散模子，可以或许天生逼真的图像，只需任何文本输入，就可以自主自由创造漂亮的图像，使浩繁不会照相的人在几秒钟内创造出惊人的图片。StableDiffusion可以天生差别的图片风格，比如：Anime 动画，realistic 写实，Landscape 风景，Fantasy 奇幻，Artistic 艺术。尚有很多其他的风格，都可以在网上看到。
  ▐  StableDiffusion告急术语

  有一些图示来直观理解StableDiffusion，比力深奥，不外多表明：
  https://zhuanlan.zhihu.com/p/599887666

模子

  https://stable-diffusion-art.com/models/
  网上可以下载到的StableDiffusion模子非常多。只须要记得这些都是SD模子的微调版本即可，这些差别版本的StableDiffusion模子都是基于雷同的算法和原理，而且都可以用于天生高质量的图像、音频、视频等数据。详细选择哪个版本取决于应用场景和详细需求。
  以下是常见模子，以及说明：

也可以本身做模子的归并，在StableDiffusion的GUI界面如下操作即可：

利用 AUTOMATIC1111 GUI 归并两个模子，转到 Checkpoint Merger 选项卡，在 Primary model (A) 和 Secondary model (B) 中选择要归并的两个模子。
调解乘数 (M) 来调解两个模子的相对权重。将其设置为 0.5 将以相等告急性归并两个模子。
按下运行按钮后，新归并的模子就可以用了。

微调模子：Embedding && Lora && Hypernetwork

CheckPoint：这些是真正稳固的扩散模子。它们包含天生图像所需的全部内容，不须要额外的文件。它们通常很大，巨细为2-7 GB。本文的主题是它们。
Embedding：也称为Textual inversions。它们是界说新关键词以天生新对象或样式的小文件。通常为10-100 KB。您必须与CheckPoint模子一起利用。
LoRA：它们是用于修改样式的查抄点模子的小补丁文件。它们通常为10-200 MB。您必须与CheckPoint模子一起利用。也是用于给先有模子做一些微小的改变；可以对原有模子做补丁，然后通过关键词触发风格，人物。
Hypernetwork：它们是添加到CheckPoint模子的附加网络模块。它们通常为5-300 MB。您必须与CheckPoint模子一起利用。

ControlNet 控制姿势

  ControlNet是一种稳固的扩散模子，可以复制作品和人体姿势。想要利用的话再扩展中安装sd-webui-controlnet扩展即可。
  正常环境下我们想要控制人物的姿势是非常困难的，而且姿势随机，而ControlNet办理了这个问题。它强盛而多功能，可以与任何扩散模子一起利用。
  告急作用：

边沿检测，家具摆放等
人体姿势复制

可用的模子以及说明：

抽样算法

差别抽样算法的天生时间对比：

利用差别的抽样算法天生的图片：
a busy city street in a modern city

Stable Diffusion 告急参数列表

https://stable-diffusion-art.com/know-these-important-parameters-for-stunning-ai-images/#Sampling_methods

怎样天生高质量的图片

  ▐  什么是prompt？

  在StableDiffusion中，"prompt"是指为GPT模子提供输入的文本段落或句子。它是用来引导模子天生故意义、正确的相应的关键因素之一。

好的Prompt结构

Subject (required) 主体
Medium 艺术种别
Style 艺术风格
Artist 艺术家
Website 艺术流派
Resolution 清楚度
Additional details 额外的细节
Color 色彩

同时可以思量满意以下的条件：

在形貌主题时要详细和详细。
利用多个括号（）来增强其强度，利用[]来低落。
艺术家的名字是一个非常强的风格修饰符，利用的时候要知道这个是什么风格。

Prompt风格参考

如果不确定要用什么风格，可以去下面的两个地址搜一下对应的风格

关键词检索（laion-aesthetic-6pls）：https://laion-aesthetic.datasette.io/laion-aesthetic-6pls/images
艺术风格汇总list of artists for SD：https://rentry.org/artists_sd-v1-4
prompt查询参考：https://stablediffusionweb.com/prompts
查找Tag：https://aitag.top/
照相大师：https://docs.google.com/spreadsheets/d/16KKh1FQmd-r98K9aWPBux5m9lc9PCV_T1AWgU54qXm8/htmlview

Prompt调解权重

利用()增长权重，利用[]低落权重；

   a (word) - 将对单词的权重增长1.1倍
a ((word)) - 将对单词的权重增长1.21倍（= 1.1 * 1.1）
a [word] - 将对单词的权重减少1.1倍
a (word:1.5) - 将对单词的权重增长1.5倍
a (word:0.25) - 将对单词的权重减少4倍（= 1 / 0.25）
a \(word\) - 在提示中利用字面上的（）字符，转义，倒霉用权重
prompt也可以从某个点位开始思量天生指定的内容：
   [from:to:when]
示例：
  a [fantasy:cyberpunk:16] landscape

开始时，模子将绘制一幅fantasy景观。
在第16步之后，它将切换到绘制一幅cyberpunk:景观，继承从fantasy制止的地方绘制。

  别的一种语法：
  [cow|horse] in a field
  第1步，提示是“cow”。第2步是“horse”。第3步是“cow”，以此类推。

一些参考prompt

  negtive提示符：
  ugly, tiling, poorly drawn hands, poorly drawn feet, poorly drawn face, out of frame, extra limbs, disfigured, deformed, body out of frame, bad anatomy, watermark, signature, cut off, low contrast, underexposed, overexposed, bad art, beginner, amateur, distorted face
  ((((ugly)))), (((duplicate))), ((morbid)), ((mutilated)), [out of frame], extra fingers, mutated hands, ((poorly drawn hands)), ((poorly drawn face)), (((mutation))), (((deformed))), ((ugly)), blurry, ((bad anatomy)), (((bad proportions))), ((extra limbs)), cloned face, (((disfigured))), out of frame, ugly, extra limbs, (bad anatomy), gross proportions, (malformed limbs), ((missing arms)), ((missing legs)), (((extra arms))), (((extra legs))), mutated hands, (fused fingers), (too many fingers), (((long neck)))

怎样想出好的prompt：https://stable-diffusion-art.com/how-to-come-up-with-good-prompts-for-ai-image-generation/#Some_good_keywords_for_you
负面提示符：https://stable-diffusion-art.com/how-to-use-negative-prompts/#Negative_prompt_with_Stable_Diffusion_v15

▐ 天生高质量的图片进阶？

图片修复 (inpaiting)

https://stable-diffusion-art.com/inpainting-remove-extra-limbs/

下载inpaiting模子；
可以天生图片后点击send img2img，也可以本身上传到img2img；
用刷子举行绘制想要修改的地域，刷完之后，重新天生。

此中的一些参数：

模子记得选择SDv1.5修复模子(sd-v1-5-inpainting.ckpt)。

练习本身的模子？

  可以直接在Colab云端练习，当地也不用配置环境，练习也很快：
  https://colab.research.google.com/github/Linaqruf/kohya-trainer/blob/main/kohya-LoRA-dreambooth.ipynb#scrollTo=WNn0g1pnHfk5
  想在当地练习：

参考：https://github.com/bmaltais/kohya_ss
练习教程：https://stable-diffusion-art.com/dreambooth/

确定要练习模子的唯一标识(起个名字)，以及这个模子所对应的类型(class)；
‍比如如果想要练习一个狗的模子，那么狗就是对应的类型(class)，然后可以给这个狗起一个名字。名字只管不要太容易重复；
准备把图片制作有有固定尺寸，创建一个目次：_一次可以练习多个概念
开始练习、选择在colab上练习是最方便的方式，当地就省去了很多配置。
以上要准备的内容简单说就是：图片、类型、唯一名字
https://colab.research.google.com/github/Linaqruf/kohya-trainer/blob/main/kohya-LoRA-dreambooth.ipynb#scrollTo=kh7CeDqK4l3Y

  按照colab正常操作就行；终极会输出一份练习的模子到你的Google Driver中。然后本身在当地测试：
   prompt：a woman, hitokomoru , with a cat on her head
negtive: (worst quality:2), (low quality:2),disfigured, ugly, old, wrong finger
利用本身的Lora VS 倒霉用Lora

尚有一次可以练习多个概念，把文件件组织好就行了

图片编辑 pix2pix

编辑配置文件configs/instruct-pix2pix.yaml，改为如下内容：

use_ema: true // 默认为false
load_ema: true

复制代码

denoising 改为1.0, 抽样利用Euler a算法；

常用参数：

text cfg: 越大代表天生的内容越接近我们的笔墨形貌
image cfg: 越大代表越接近我们的原始图片，越小代表可以越不按照原始图片天生

下面是一些常用的指令模板：

Change the Style to (an artist or style name)
Have her/him (doing something)
Make her/him look like (an object or person)
Turn the (something in the photo) into a (new object)
Add a (object)
Add a (object) on (something in the photo)
Replace the (object) with (another object)
Put them in (a scene or background)
Make it (a place, background or weather)
Apply (a emotion or something on a person)

   偶然候重新表达指令可以改善效果（例如，“turn him into a dog”与“make him a dog”与“as a dog”）。
增长steps的值偶然可以改善效果。
人脸看起来希奇？Stable Diffusion自编码器在图像中人脸较小的环境下会有问题‍。实验：裁剪图像，使人脸在画面中占据更大的部分。
‍
  资料地址：

模子下载地址：https://huggingface.co/timbrooks/instruct-pix2pix/resolve/main/instruct-pix2pix-00-22000.ckpt
线上体验地址：https://huggingface.co/spaces/timbrooks/instruct-pix2pix

利用脚本

Stable Diffusion的webUI中默认有一些脚本，可以方便我们实验一些差别的天生方式。

常见天生人物问题与处置处罚

▐ StableDiffusion天生图片演示

水底玉人笔墨天生 text2img

  水下照相肖像，iu1，裙子，漂亮的详细女孩，极其详细的眼睛和脸，漂亮的详细眼睛，闭着嘴，玄色的头发，锁骨，裸露的肩膀，长睫毛，俊逸的头发，气泡，阳光穿过水面，逼真，照片般的真实感，由泰德·格兰博拍摄，最高风致。
  正面提示：underwater photography portrait, iu1, dress, beautiful detailed girl, extremely detailed eyes and face, beautiful detailed eyes, closed mouth, black hair, collarbone, bare shoulders, longeyelashes, floating hair, bubbles, sun light breaking through water surface, realistic, photorealistic, by ted grambeau, best quality

  反面提示：(worst quality:2), (low quality:2), (normal quality:2) , goggles, sun glasses, hand, extra fingers, fewer fingers, strange fingers, bad hand

参数	值	参数说明
CFG scale	8	值越大，越符合你的prompt，范围为1~30；默认为7. 个人测试： 5以下看起来不悦目
Sampling steps	20	理论上越大，图片质量越高，但是大概会带来暗昧
Image size	512×512
Seed	-1
Face restoration	Codeformer	勾选面部修复
Sampling method	DPM++ 2M Karas
Model	F222	默认是SD模子，可以下载这个模子，F222告急用在女性身段天生上比力擅长： https://huggingface.co/acheong08/f222/blob/main/f222.ckpt
微调模子	Lora iu https://civitai.com/models/11722/iu	默认是SD模子，可以下载这个模子，F222告急用在女性身段天生上比力擅长： https://huggingface.co/acheong08/f222/blob/main/f222.ckt

我做的事情：

下载并利用F222模子；
参考其他水底玉人提示符，修改人物天生要用的人物；
微调提示符，多次天生；

西湖风景后期处置处罚 img2img

原始照片：

  天生prompt：
  第一张prompt: ((Sunset)) , (Lake Gold) , Boat Center, Mountain, Tree in left, realistic, photorealistic, , 8K,Wide-angle, (expansive:1.5) , a combination of red, orange, pink, and purple.
  negtive: (worst quality:2), (low quality:2)
  第二张：a sunset over a body of water with a tree branch hanging over it and the sun reflecting in the water, a photo, Arthur Pan, dau-al-set, tranquil
  第三张：two ducks swimming in a pond with fish in the water and a fish in the water behind them,, an impressionist painting, Emperor Huizong of Song, cloisonnism, tone mapping
  第四张：a field of colorful flowers with green stems and yellow and red flowers in the middle of the field,, a jigsaw puzzle, Bob Thompson, color field, rich vivid colors

人像卡通化测试 img2img

  prompt：a young man holding a durian fruit in his hand , portrait ,detailed eyes, hyperrealistic
  negtive prompt: (worst quality:2), (low quality:2),disfigured, ugly, old
  模子：AnythingV3；
  Denoising strength从0.1依次升高，第一张为原图；

Denoising strength: 0.4~0.7(可以看到从0.5的噪声强度开始，AI已经开始自由发挥了，固然也会参考原图)

Denoising strength: 0.8~0.9 (基本完全自由发挥)

  依旧是上个原图，换为midjourney v4模子，Denoising strength测试0.2, 0.4, 0.6, 0.8
  雷同的提示词，换个模子之后团体风格大变；

图片编辑测试 pix2pix

TextCFG固定：7.5，调解ImageCFG；
Put him in beach

控制人物姿势 ControlNet

  提示：A girl, showing her muscles, detailed face , realistic ,8k
  negtive prompht: (worst quality:2), (low quality:2),disfigured, ugly, old,nsfw
  除了控制姿势，还可以控制人物的心情，这里我们只是控制人物的姿势；

图片Inpaiting测试 img2img

  给“模特”戴项链：
  A girl, (necklace:1.5), showing her muscles, detailed face , realistic ,8k

  给“模特”戴墨镜：
  A girl, (sunglasses:1.5), showing her muscles, detailed face , realistic ,8k

StableDiffusion在实际应用中的案例

▐ 个人应用

娱乐，头像、图片加工(差别风格处置处罚)、创作新的场景(实验一些场景，然后告诉SD)
快速创建艺术作品、设计产物原型

▐ 商业应用

设计工具，资助设计师快速创建产物原型、样式和艺术作品
营销工具，资助企业快速创建逼真的广告海报、产物展示图、影戏场景等，进步营销效果。
个性化定制，个性化定制平台中，资助消耗者快速创建个性化产物，例如定制T恤、鞋子等
教育上，创新教育，虚拟实行，只须要有想象力就可以天生对应的图片

探讨StableDiffusion与AIGC未来的发展趋势

  将概念扩大不但是天生图片，而是人工智能天生内容的话，参开ChaGPT的答复，在未来人工智能技术大概的发展方向和影响；
  ▐ 媒体行业和广告行业

  人工智能内容天生技术可以用于消息、报道、批评等方面，资助媒体机构更快速、高效地天生内容。同时，它也可以用于广告创意、广告文案等方面，资助广告公司更好地推广产物和服务。
  ▐  游戏行业和教育行业

  人工智能内容天生技术可以用于游戏脚色、游戏关卡等方面，资助游戏公司更好地设计和开发游戏。别的，它还可以用于讲授资源的天生和个性化讲授，例如天生讲义、课件、试题等。
  ▐  金融行业和医疗行业



  人工智能内容天生技术可以用于金融陈诉、分析和猜测，例如天生金融消息报道、投资陈诉等。在医疗行业中，它可以用于医疗陈诉和病历记录，例如天抱病历记录、医学陈诉等。
  ▐  法律行业和修建行业





  人工智能内容天生技术可以用于法律文件和条约的天生，例如天生条约、法律文书等。在修建行业中，它可以用于修建设计和规划，例如天生修建设计图纸、规划方案等。
  ▐  IT行业



  人工智能内容天生技术在IT行业中的应用非常广泛，可以将其分为以下几个子种别：

内容创作

人工智能内容天生技术可以用于互联网内容的主动化天生，例如主动化天生消息报道、博客文章、交际媒体内容等，从而进步服从和质量。

搜刮引擎

人工智能内容天生技术可以用于搜刮引擎的优化和改进，例如天生更好的搜刮效果、进步搜刮的正确性和速率等。

个性化保举

人工智能内容天生技术可以用于个性化保举系统的优化和改进，例如天生更符实用户爱好和需求的保举内容。

聊天呆板人

人工智能内容天生技术可以用于聊天呆板人的开发和优化，例如天生更天然、流通的对话内容，提升用户体验。

数据分析

人工智能内容天生技术可以用于大数据分析和处置处罚，例如主动天生数据陈诉、分析效果等。

软件开发

人工智能内容天生技术可以用于主动天生代码、文档、测试用例等，从而进步软件开发的服从和质量。

安全范畴

人工智能内容天生技术可以用于网络安全和数据安全范畴，例如主动天生安全陈诉、分析网络攻击等。

人机交互

人工智能内容天生技术可以用于改善人机交互体验，例如主动天生UI界面、语音交互内容等。

云计算

人工智能内容天生技术可以用于优化云计算服务，例如主动天生云计算资源规划、监控陈诉等。

总结

  这里告急先容了 StableDiffusion在图片天生上的内容，然后详细说明白StableDiffusion 的告急术语和参数，并探讨了怎样利用 prompt 和高级技巧（如图像修复、练习自界说模子和图像编辑）来天生高质量的图片。末了假想了一些 StableDiffusion 在个人和商业范畴的实际应用案例，讨论了它在媒体、游戏、金融、法律、IT 等行业的未来发展趋势。

  末了，我们正处于 AIGC的时代，这些新技术正在改变我们的生存和工作方式，为我们带来亘古未有的机会和挑衅。积极拥抱这些新技术，捉住时代的机会，不绝学习和适应新的变革。不管以后什么行业，AIGC 技术都将发挥越来越告急的作用。尽早探索未知的范畴，开创更好的未来！

相干资源

免费的SD网站：https://stable-diffusion-art.com/free-ai-image-generator-sites/
stable diffusion webui：https://github.com/AUTOMATIC1111/stable-diffusion-webui
关键词检索（laion-aesthetic-6pls）：https://laion-aesthetic.datasette.io/laion-aesthetic-6pls/images
艺术风格汇总list of artists for SD：https://rentry.org/artists_sd-v1-4
艺术家作品列表：https://docs.google.com/spreadsheets/d/16KKh1FQmd-r98K9aWPBux5m9lc9PCV_T1AWgU54qXm8/htmlview
提示语辅助天生promptoMANIA：https://promptomania.com/
Textual Inversion Embeddings：https://cyberes.github.io/stable-diffusion-textual-inversion-models/
AIGC 掀起的商业海潮：https://grow.alibaba-inc.com/course/4800013996045603
Stable Diffusion特性官方先容：https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki/Features
AI作品参考：

Playground AI：https://playgroundai.com/
Lexica：https://lexica.art/
krea：https://www.krea.ai/

模子下载：

- Civitai：https://civitai.com/
- Hugging Face：https://huggingface.co/models

团队先容

大淘宝技术用户运营平台技术团队是一支最懂用户，技术驱动的年轻队伍，以用户为中心，通过技术创新提升用户全生命周期体验，一连为用户创造代价。

团队以创新为核心代价观之一，鼓励团队成员在工作中不绝探索、实行和创新，以推动业界技术的进步和用户体验的提升。我们不但关注当前业界领先的技术，更留意未来技术的预研和应用。团队成员会积极到场学术研究和技术社区，不绝探索新的技术方向和办理方案。

团队驻足体系化打造业界领先的用户增长底子办法，以媒体外投平台、ABTest平台、用户运营平台为代表的底子办法赋能阿里团体用户增长，日均处置处罚数据量千亿规模、调用QPS万万级。在用户增长技术团队，我们提供“增长黑客”极客氛围和丰富的岗位选择，欢迎业界贤才到场。

¤ 拓展阅读 ¤

3DXR技术 | 终端技术 | 音视频技术

服务端技术 | 技术质量 | 数据算法

来源：https://blog.csdn.net/Taobaojishu/article/details/131255502
免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！

探索 StableDiffusion：天生高质量图片学习及应用

本帖子中包含更多资源