✍️ AIGC 工具类文章 - 精确控制 AI 图像生成的破冰方案，ControlNet 和 T2I-Adapter - 《AIGC知识库 Stable Diffusion Midjourney ChatGPT》

ControlNet 和 T2I-Adapter 的突破性在哪里？有什么区别？
">抛开如何在扩散模型里融合额外的模态输入这样的技术细节（因为我看不懂
通过建立一个框架，在保留大型模型从数十亿图像中获得的优势和能力时，同时拥有快速训练方法，在可接受的时间和算力资源条件内，利用预训练的权重，以及微调策略或转移学习，将大型模型优化后用于特定任务。兼顾对泛问题的处理能力和满足具体任务中用户对生成控制需求的灵活性，最大程度的保留原模型的生成能力。
ControlNet 和 T2I-Adapter 的框架都具备灵活小巧的特征，训练快，成本低，参数少，很容易地被插入到现有的文本-图像扩散模型中，不影响现有大型模型的原始网络拓扑结构和生成能力。同时，它俩都能兼容其它基于 Stable Diffsuion 的 fine-tune 的图像生成模型，而无需重训，比如 Anything v 4.0 (二次元风格的 SD 1.5 fine-tune 模型)。
训练一种新输入条件模型 (input condition detector model)，比如支持一种新的边缘或深度检测算法的模型，在这类框架思路下可以做到和常见 fine-tune 一样快。
ControlNet 在论文里提到，Canny Edge detector 模型的训练用了 300 万张边缘-图像-标注对的语料，A100 80G 的 600个 GPU 小时。Human Pose （人体姿态骨架）模型用了 8 万张姿态-图像-标注对的语料, A100 80G 的 400 个 GPU 时。
而 T2I-Adapter 的训练是在 4 块 Tesla 32G-V100 上只花了 2 天就完成，包括 3 种引导条件：sketch（15 万张图片语料），Semantic segmentation map（16 万张）和 Keypose（15 万张）。
当然，这年头没有什么 ML 的解决方案是横空出世的，去年 12 月，Google 就发布了论文 Sketch-Guided Text-to-Image Diffusion Model，使用了 classifier guidance 的思路，设计了一个称为 latent edge predictor 的框架，能够在 Stable Diffusion 的 noisy latent vector 上预测每步的生成是否匹配输入图片里探测到的 sketch 边缘。再将预测结果用于引导扩散模型的生成。
但这一框架最大的问题在于边缘的生成（梯度引导）是不考虑文本信息且不存在任何交互的。独立引导造成的结果可以让生成结果里图像的边缘与引导输入相吻合，但与所对应的语义信息并不能很好地贴合。
ControlNet 和 T2I-Adapter 的实际应用效果如何？
使用体验上，上面这些引导控制跟 SD 原生支持的 img2img 有什么区别？
ControlNet 条件引导在图像创作上的潜力
多种条件引导的组合使用
ControlNet 条件引导在3D和动画创作上的潜力
哪里可以免安装且免费玩上 ControlNet 和 T2I-Adapter
- 论文和模型

ControlNet 和 T2I-Adapter 的突破性在哪里？有什么区别？
其它为 T2I 扩散模型施加条件引导的相关研究
ControlNet 和 T2I-Adapter 的实际应用效果如何？
使用体验上，跟 SD原生支持的 img2img 有什么区别？
ControlNet 在插画创作上的潜力
多种条件引导的组合使用
ControlNet 在3D和动画创作上的潜力
哪里可以免安装且免费玩上？
论文和模型

这几天 AIGC 社区的兴奋程度达到了几个月内的高峰，快赶上去年 Stable Diffusion 首次发布的热闹劲。主角就是 ControlNet，一个基于 Stable Diffusion 1.5 的轻型预训模型，能利用输入图片（input image）里的边缘特征、深度特征或人体姿势的骨架特征（posture skeleton），配合文字 prompt，精确引导图像在 SD 1.5 里的生成结果。

下图来自 ControlNet 论文的 demo，使用 Canny 坎尼边缘检测提取了输入图片里鹿的轮廓特征，用 Prompt “a high-quality, detailed, and professional image” 在 SD 1.5 里生成的 4 张结果图片。

精确控制 AI 图像生成的破冰方案，ControlNet 和 T2I-Adapter - 图2

ControlNet 的预印本发布于 2 月 10 日，同时开源了预训模型的和论文里所有 input condition detector 的权重。社区迅速在 Huggingface 部署了可以试用的 Demo, 并打包成可在 Stable Diffusion WebUI 里使用的外挂插件。

6 天后，腾讯 ARC 也发布了类似解决方案 T2I-Adapter。

ControlNet 和 T2I-Adapter 的突破性在哪里？有什么区别？

抛开如何在扩散模型里融合额外的模态输入这样的技术细节（因为我看不懂

），大面上看，这两者思路很相近。突破点都是如何在已有的模型基础上添加可训练参数，控制预先训练好的大型扩散模型，以支持额外的输入条件 (input condition)，达到在新任务上的效果迁移。即使在训练数据集很小的情况下，也能达到稳健的学习效果。

通过建立一个框架，在保留大型模型从数十亿图像中获得的优势和能力时，同时拥有快速训练方法，在可接受的时间和算力资源条件内，利用预训练的权重，以及微调策略或转移学习，将大型模型优化后用于特定任务。兼顾对泛问题的处理能力和满足具体任务中用户对生成控制需求的灵活性，最大程度的保留原模型的生成能力。

ControlNet 和 T2I-Adapter 的框架都具备灵活小巧的特征，训练快，成本低，参数少，很容易地被插入到现有的文本-图像扩散模型中，不影响现有大型模型的原始网络拓扑结构和生成能力。同时，它俩都能兼容其它基于 Stable Diffsuion 的 fine-tune 的图像生成模型，而无需重训，比如 Anything v 4.0 (二次元风格的 SD 1.5 fine-tune 模型)。

训练一种新输入条件模型 (input condition detector model)，比如支持一种新的边缘或深度检测算法的模型，在这类框架思路下可以做到和常见 fine-tune 一样快。

ControlNet 在论文里提到，Canny Edge detector 模型的训练用了 300 万张边缘-图像-标注对的语料，A100 80G 的 600个 GPU 小时。Human Pose （人体姿态骨架）模型用了 8 万张姿态-图像-标注对的语料, A100 80G 的 400 个 GPU 时。

而 T2I-Adapter 的训练是在 4 块 Tesla 32G-V100 上只花了 2 天就完成，包括 3 种引导条件：sketch（15 万张图片语料），Semantic segmentation map（16 万张）和 Keypose（15 万张）。

两者的差异：ControlNet 目前提供的预训模型，可用性完成度更高，支持更多种的条件引导（9 大类）。

而 T2I-Adapter“在工程上设计和实现得更简洁和灵活，更容易集成和扩展”（by 读过其代码的 virushuo）此外，T2I-Adapter 支持一种以上的引导条件，比如可以同时使用 sketch 和 segmentation map 作为输入条件，或在一个蒙版区域 (也就是 inpaint ) 里使用 sketch 引导

另外值得一提的是，这两篇论文的首作都是年轻的华人 AI 研究者，ControlNet 的首作 Lvmin Zhang，21 年本科毕业，现为斯坦福 PHD，2018 年大二时便一作发表了 ACM Graphics 的高引论文，被视为 AI 领域在本科阶段就有独立科研能力的“天才”。他之前最为著名的项目是 Style2paints，利用 Enhanced Residual U-net 和 Auxiliary Classifier GAN 为灰度动漫线稿上色。他作为这个小型研究组织的创始人，一直在关注 AI 在二次元风格图像生成方向的模型训练、语料库整理及工具开发。

而发布 T2I-Adapter 的腾讯 ARC 是腾讯关注智能媒体相关技术的事业群，以视觉、音频和自然语言处理为主要方向。

其它为 T2I 扩散模型施加 Input condition 引导的相关研究

当然，这年头没有什么 ML 的解决方案是横空出世的，去年 12 月，Google 就发布了论文 Sketch-Guided Text-to-Image Diffusion Model，使用了 classifier guidance 的思路，设计了一个称为 latent edge predictor 的框架，能够在 Stable Diffusion 的 noisy latent vector 上预测每步的生成是否匹配输入图片里探测到的 sketch 边缘。再将预测结果用于引导扩散模型的生成。

但这一框架最大的问题在于边缘的生成（梯度引导）是不考虑文本信息且不存在任何交互的。独立引导造成的结果可以让生成结果里图像的边缘与引导输入相吻合，但与所对应的语义信息并不能很好地贴合。

精确控制 AI 图像生成的破冰方案，ControlNet 和 T2I-Adapter - 图4

https://arxiv.org/abs/2211.13752

今年 1 月发布的另一篇论文 GLIGEN: Open-Set Grounded Text-to-Image Generation。“以一个类似于 NLP 领域 transformer-adapter 的 parameter efficient 的思路来微调 Stable-Diffusion 模型（即固定已有模型的参数，只训练在模型里额外添加的组件），并成功使得 SD 模型可以参考 bounding box 的位置信息，来对不同实体进行生成 ”。

精确控制 AI 图像生成的破冰方案，ControlNet 和 T2I-Adapter - 图5

精确控制 AI 图像生成的破冰方案，ControlNet 和 T2I-Adapter - 图6

https://arxiv.org/abs/2301.07093

这篇论文里的放出了可运行的 demo，效果得到了实证。知乎上的 NLP 算法工程师中森在认为这篇论文论证了“已有的预训练文生图大模型的高度可拓展性，并且在开源模型上添加各种模态控制信息做继续训练的高度可行性”。

demo：https://huggingface.co/spaces/gligen/demo

对于这3篇论文里成果的比较，请移步他的专栏文章：https://zhuanlan.zhihu.com/p/605761756

ControlNet 和 T2I-Adapter 的实际应用效果如何？

对于 Stable Diffusion, 论引导效果，一百句 Text prompt 可能都比不上一张 input image 来得准确和高效。要观察实战效果，一千行文字介绍也比不上几组结果图片更清晰明了。

（除了标注了引用出处的图片外，其它都是作者生成的 raw outcome，基本都是未经挑选的单次生成结果）

人像类：

Input image

精确控制 AI 图像生成的破冰方案，ControlNet 和 T2I-Adapter - 图7

ControlNet 测试： 将原图转化为 HDE map（Holistically-nested edge detection，一种整体嵌套式边缘检测的 DL 模型，精度比 Canny Edge 高不少），捕捉其边缘特征用于引导。

精确控制 AI 图像生成的破冰方案，ControlNet 和 T2I-Adapter - 图8

Prompt：portrait, half body, wearing a delicate shirt, highly detailed face, beautiful detail, sharp focus, by H.R. Giger

精确控制 AI 图像生成的破冰方案，ControlNet 和 T2I-Adapter - 图9

Prompt：portrait, half body, wearing a delicate shirt, highly detailed face, beautiful detail, sharp focus, by 不记得谁了

精确控制 AI 图像生成的破冰方案，ControlNet 和 T2I-Adapter - 图10

Prompt：portrait, half body, wearing a delicate shirt, highly detailed face, beautiful detail, sharp focus, by Alphonso Mucha

精确控制 AI 图像生成的破冰方案，ControlNet 和 T2I-Adapter - 图11

T2I-Adapter 测试： 使用 Sketch-guided Synthesis 将原图里转为草稿，捕捉边缘特征用于引导。（Adapter 选用的边缘检测算法是一个基于 CNN 模型的轻量级的像素差异网络 PiDiNet（https://arxiv.org/abs/2108.07009）

精确控制 AI 图像生成的破冰方案，ControlNet 和 T2I-Adapter - 图12

Prompt：portrait, half body, wearing a delicate shirt, highly detailed face, beautiful detail, sharp focus （以下3张皆是）

精确控制 AI 图像生成的破冰方案，ControlNet 和 T2I-Adapter - 图13

精确控制 AI 图像生成的破冰方案，ControlNet 和 T2I-Adapter - 图14

精确控制 AI 图像生成的破冰方案，ControlNet 和 T2I-Adapter - 图15

建筑类：

输入图片（柯布西耶的萨伏伊别墅）

精确控制 AI 图像生成的破冰方案，ControlNet 和 T2I-Adapter - 图16

ControlNet 测试： 将原图转化为 Hough Line。（霍夫变换是一个1962 年发明的专利算法，最初是为了识别照片中的复杂线条而发明的。擅长用于检测直线和几何形状，适用于捕捉建筑类图像边缘的）

精确控制 AI 图像生成的破冰方案，ControlNet 和 T2I-Adapter - 图17

Prompt: building, super detail, by Giorgio de Chirico

精确控制 AI 图像生成的破冰方案，ControlNet 和 T2I-Adapter - 图18

Prompt: building, super detail, by Charles Addams

精确控制 AI 图像生成的破冰方案，ControlNet 和 T2I-Adapter - 图19

Prompt: building, super detail, by Alena Aenami

精确控制 AI 图像生成的破冰方案，ControlNet 和 T2I-Adapter - 图20

T2I-Adapter 测试： 使用 Sketch-guided Synthesis 将原图里转为草稿（纵横比被我搞错了精确控制 AI 图像生成的破冰方案，ControlNet 和 T2I-Adapter - 图21
）

精确控制 AI 图像生成的破冰方案，ControlNet 和 T2I-Adapter - 图22

Prompt：building, super detail, by Giorgio de Chirico (下同)

精确控制 AI 图像生成的破冰方案，ControlNet 和 T2I-Adapter - 图23

精确控制 AI 图像生成的破冰方案，ControlNet 和 T2I-Adapter - 图24

精确控制 AI 图像生成的破冰方案，ControlNet 和 T2I-Adapter - 图25

风景类：

Input image (由 SD2.0 生成)

精确控制 AI 图像生成的破冰方案，ControlNet 和 T2I-Adapter - 图26

ControlNet 测试： 将原图转化为 semantic segmentation map（语义分割map），捕捉其中的形状区块用于引导。

精确控制 AI 图像生成的破冰方案，ControlNet 和 T2I-Adapter - 图27

Prompt: artwork by Eyvind Earle, stunning city landscape, street view, detailed

精确控制 AI 图像生成的破冰方案，ControlNet 和 T2I-Adapter - 图28

Prompt: artwork by John Berkey, stunning city landscape, street view, detailed

精确控制 AI 图像生成的破冰方案，ControlNet 和 T2I-Adapter - 图29

Prompt: artwork by Alphonso Mucha, stunning city landscape, street view, detailed

精确控制 AI 图像生成的破冰方案，ControlNet 和 T2I-Adapter - 图30

T2I-Adapter 测试： 使用 Sketch-guided Synthesis 将原图里转为草稿，捕捉边缘特征用于引导。

精确控制 AI 图像生成的破冰方案，ControlNet 和 T2I-Adapter - 图31

在 SD 1.4 里的生成结果（T2I-Adapter 的预训模型里只支持 PLMS 这一种 sampling，可能会影响它的生成效果）：

Prompt: artwork by Eyvind Earle, stunning city landscape, street view, detailed

精确控制 AI 图像生成的破冰方案，ControlNet 和 T2I-Adapter - 图32

Prompt: artwork by Eyvind Earle, stunning city landscape, street view, detailed

精确控制 AI 图像生成的破冰方案，ControlNet 和 T2I-Adapter - 图33

人体 post skeleton：

Input image

精确控制 AI 图像生成的破冰方案，ControlNet 和 T2I-Adapter - 图34

ControlNet 测试：将原图转化为 human pose，捕捉其中的姿势骨骼用于引导

精确控制 AI 图像生成的破冰方案，ControlNet 和 T2I-Adapter - 图35

在 SD 1.5 里的生成结果：

精确控制 AI 图像生成的破冰方案，ControlNet 和 T2I-Adapter - 图36

精确控制 AI 图像生成的破冰方案，ControlNet 和 T2I-Adapter - 图37

在 Anything 4.0 里的生成结果：

精确控制 AI 图像生成的破冰方案，ControlNet 和 T2I-Adapter - 图38

T2I-Adapter 测试：

使用同一张骨骼引导图在 SD 1.4 里的生成结果

精确控制 AI 图像生成的破冰方案，ControlNet 和 T2I-Adapter - 图39

精确控制 AI 图像生成的破冰方案，ControlNet 和 T2I-Adapter - 图40

用手绘草图作引导：

最后一组是用 User Scribble（Sketch）作为生成引导的测试。我画了个吃手章鱼猫的草图

精确控制 AI 图像生成的破冰方案，ControlNet 和 T2I-Adapter - 图41

ControlNet 在 SD 1.5 里的生成结果：

Prompt: Octocat, cat head, cat face, Octopus tentacles, by 忘了是谁

精确控制 AI 图像生成的破冰方案，ControlNet 和 T2I-Adapter - 图42

Prompt: Octocat, cat head, cat face, Octopus tentacles, by H.R. Giger

精确控制 AI 图像生成的破冰方案，ControlNet 和 T2I-Adapter - 图43

T2I-Adapter 在 SD 1.4 里的生成结果：

Prompt: Octocat, cat head, cat face, Octopus tentacles, oil painting

精确控制 AI 图像生成的破冰方案，ControlNet 和 T2I-Adapter - 图44

T2I-Adapter 支持一个匹配强度的参数，上图用了 50% 强度，下图用了40% 强度，prompt 相同。

上图与草稿图里章鱼猫的轮廓更为吻合，而下图中生成的触手有更多偏移。

精确控制 AI 图像生成的破冰方案，ControlNet 和 T2I-Adapter - 图45

Depth-based 引导

除了边缘检测、草稿和 post 骨骼这 3 类基础 input condition ，ControlNet 还支持了另一种非常有用的深度引导。

输入图片：

精确控制 AI 图像生成的破冰方案，ControlNet 和 T2I-Adapter - 图46

在 ControlNet 里将原图转化为法线贴图 Normal Map （一种模拟凹凸处光照效果的技术，是凸凹贴图的一种实现。相比于深度 Depth Map 模型，法线贴图模型在保留细节方面似乎更好一些）

精确控制 AI 图像生成的破冰方案，ControlNet 和 T2I-Adapter - 图47

Prompt: by H.R. Giger, portrait of Snake hair Medusa, snake hair, realistic wild eyes, evil, angry, black and white, detailed, high contrast, sharp edge

精确控制 AI 图像生成的破冰方案，ControlNet 和 T2I-Adapter - 图48

by Alberto Seveso, portrait of Snake hair Medusa, snake hair, photography realistic, beautiful eyes and face, evil, black and white, detailed, high contrast, sharp edge, studio light

精确控制 AI 图像生成的破冰方案，ControlNet 和 T2I-Adapter - 图49

by Alphonso Mucha, portrait of Snake hair Medusa, snake hair, beautiful eyes and face of a young girl, peaceful, calm face, black and white, detailed, high contrast, sharp edge

精确控制 AI 图像生成的破冰方案，ControlNet 和 T2I-Adapter - 图50

使用体验上，上面这些引导控制跟 SD 原生支持的 img2img 有什么区别？

下图是我用 5 分钟快速涂抹的草稿，作为 input image 输入，使用 ControlNet 里的 Canny edge 边缘检测作为输入条件，生成了 3 张结果。

精确控制 AI 图像生成的破冰方案，ControlNet 和 T2I-Adapter - 图51

精确控制 AI 图像生成的破冰方案，ControlNet 和 T2I-Adapter - 图52

Prompt：a deer standing on the end of a road, super details, by Alice Nee

精确控制 AI 图像生成的破冰方案，ControlNet 和 T2I-Adapter - 图53

a deer standing on the end of a road, super details, by C215

精确控制 AI 图像生成的破冰方案，ControlNet 和 T2I-Adapter - 图54

a deer standing on the end of a road, super details, by Canaletto

精确控制 AI 图像生成的破冰方案，ControlNet 和 T2I-Adapter - 图55

草稿中鹿后腿的边缘其实没有被很好识别出来，但配合 text prompt，所有结果图片里都还原了结构良好的鹿。

而下面这几张是 img2img 引导生成的结果。通过比较输入图片和生成结果，很容易发现，img2img 的 input image 提供的引导主要是噪音的分布，影响构图和颜色，但对生成对象形状 (边缘) 的与输入图片的贴合度并不高（鹿角特别明显）。

Prompt：a vibrant digital illustion of a deer standing on the end of a road, top of mountain, Twilight, Huge antlers like tree branches, giant moon, art by James jean, exquisite details, low poly, isometric art, 3D art, high detail, concept art, sharp focus, ethereal lighting

SD 1.5 里的生成结果

精确控制 AI 图像生成的破冰方案，ControlNet 和 T2I-Adapter - 图56

精确控制 AI 图像生成的破冰方案，ControlNet 和 T2I-Adapter - 图57

SD 2.0 里的生成结果

精确控制 AI 图像生成的破冰方案，ControlNet 和 T2I-Adapter - 图58

而 img2img 的 Noise Strength 参数（ 0.0 - 1.0）会决定输入图片和生成结果的近似程度。参数越大，近似度越高。想要获得跟输入图片更贴合的形状，就得牺牲掉扩散模型的“生成能力”。但引导图片里的颜色和构图都能持续保留为。

Input Image

精确控制 AI 图像生成的破冰方案，ControlNet 和 T2I-Adapter - 图59

Output: Noise Strength Parameter: 0.8

精确控制 AI 图像生成的破冰方案，ControlNet 和 T2I-Adapter - 图60

Output: Noise Strength Parameter: 0.5

精确控制 AI 图像生成的破冰方案，ControlNet 和 T2I-Adapter - 图61

ControlNet 条件引导在图像创作上的潜力

下面是一系列社区使用 ControlNet 引导 AI 进行创作生成的实验和探索。

使用 Post reference 工具生成引导图像，精确控制生成人物的透视及动作。如果只使用 text prompt 引导，这是几乎完全无法做到的事。

精确控制 AI 图像生成的破冰方案，ControlNet 和 T2I-Adapter - 图62

精确控制 AI 图像生成的破冰方案，ControlNet 和 T2I-Adapter - 图63

https://www.reddit.com/r/StableDiffusion/comments/113lj38/jumping_from_a_wall_controlnet_is_fun/

另一个用 Post reference 工具（MagicPoser App) 生成引导图后, 使用 SD fine-tune 模型 Realistic Vision 完成的生成效果。

https://civitai.com/models/4201/realistic-vision-v13

精确控制 AI 图像生成的破冰方案，ControlNet 和 T2I-Adapter - 图64

精确控制 AI 图像生成的破冰方案，ControlNet 和 T2I-Adapter - 图65

精确控制 AI 图像生成的破冰方案，ControlNet 和 T2I-Adapter - 图66

精确控制 AI 图像生成的破冰方案，ControlNet 和 T2I-Adapter - 图67

精确控制 AI 图像生成的破冰方案，ControlNet 和 T2I-Adapter - 图68

https://www.reddit.com/r/StableDiffusion/comments/1142dtt/controlnet_magicposer_app_realistic_vision/

使用 Control Net 里的深度图引导（depth map），精确控制透视和场景。

精确控制 AI 图像生成的破冰方案，ControlNet 和 T2I-Adapter - 图69

https://twitter.com/cambri_ai/status/1626254897783128064?s=20

精确控制 AI 图像生成的破冰方案，ControlNet 和 T2I-Adapter - 图70

精确控制 AI 图像生成的破冰方案，ControlNet 和 T2I-Adapter - 图71

https://twitter.com/toyxyz3/status/1625517492415401985?s=20

用 human post 引导，控制多人角色的生成

精确控制 AI 图像生成的破冰方案，ControlNet 和 T2I-Adapter - 图72

精确控制 AI 图像生成的破冰方案，ControlNet 和 T2I-Adapter - 图73

精确控制 AI 图像生成的破冰方案，ControlNet 和 T2I-Adapter - 图74

精确控制 AI 图像生成的破冰方案，ControlNet 和 T2I-Adapter - 图75

https://twitter.com/TomLikesRobots/status/1626013122803781633?s=20

日本推友 @toyxyz3 做了一系列 post skeleton 引导的实验，非常有价值。

去掉 post skeleton 上的一部分肢体后引导，ControlNet 会引导生成时将缺失的四肢处理为被遮挡，头部处理为侧面角度（可能需要 prompt 辅助引导）。

精确控制 AI 图像生成的破冰方案，ControlNet 和 T2I-Adapter - 图76
https://twitter.com/toyxyz3/status/1626273906528251904?s=20

改变 post skeleton 里是四肢的比例，ControlNet 会在引导生成时处理为透视角度。

精确控制 AI 图像生成的破冰方案，ControlNet 和 T2I-Adapter - 图77
https://twitter.com/toyxyz3/status/1626138871598821377?s=20

改变 post skeleton 里的头身例，ControlNet 会在引导生成时将人物对象处理为不同年龄（或Q版）。

精确控制 AI 图像生成的破冰方案，ControlNet 和 T2I-Adapter - 图78
https://twitter.com/toyxyz3/status/1626137567178657792?s=20

改变 post skeleton 里的肢体数量。。。ControlNet 会在引导生成时将处理为，额~ 半兽人精确控制 AI 图像生成的破冰方案，ControlNet 和 T2I-Adapter - 图79
。

精确控制 AI 图像生成的破冰方案，ControlNet 和 T2I-Adapter - 图80
https://twitter.com/toyxyz3/status/1626977005270102016?s=20

@toyxyz3 还测试了是否能在画面里合理容纳更多数量人物。

精确控制 AI 图像生成的破冰方案，ControlNet 和 T2I-Adapter - 图81
https://twitter.com/toyxyz3/status/1626138471256715265?s=20

多种条件引导的组合使用

虽然 Control Net 还不能原生支持多种 input condition, 但加上人工的后期处理，我们可以看见其应用潜力。

使用两种引导条件分别生成人物和场景

人物使用 post skeleton 引导，场景使用 depth map 引导。分别生成完再进行合成。分开引导效果更好，也让创作设计更为灵活。（人物合成前需要抠图。另外别忘了给人物添加投影精确控制 AI 图像生成的破冰方案，ControlNet 和 T2I-Adapter - 图82
）

精确控制 AI 图像生成的破冰方案，ControlNet 和 T2I-Adapter - 图83

精确控制 AI 图像生成的破冰方案，ControlNet 和 T2I-Adapter - 图84
https://twitter.com/toyxyz3/status/1626298297211326465?s=20

精确控制 AI 图像生成的破冰方案，ControlNet 和 T2I-Adapter - 图85

精确控制 AI 图像生成的破冰方案，ControlNet 和 T2I-Adapter - 图86
https://twitter.com/toyxyz3/status/1626594162060718083

同时使用不同引导图来覆盖满足两种控制需求

Reddit 用户 Ne_Nel 同时使用两张引导图（需要能支持两张 input image 的 SD 生成工具），一张用于 ControlNet 引导，一张上色后用于 img2img 引导，就可以同时控制生成结果的对象轮廓和颜色/光影。

精确控制 AI 图像生成的破冰方案，ControlNet 和 T2I-Adapter - 图87
https://www.reddit.com/r/StableDiffusion/comments/115dr9r/more_madness_controlnet_blend_composition_color/

这也是我非常期望拥有的一种引导方式，能同时从输入图像里读取边缘和颜色这两种引导条件。基于 ControlNet 和 T2I-Adapter 的框架，说不定我们很快能看到这样一种新的引导模型被训练出来。

下面这个实验中，@toyxyz3 也试图实验 ControlNet 在读取 Semantic Segmentation map 的 segments 时是否有可能带上深度或颜色信息（并没有）

精确控制 AI 图像生成的破冰方案，ControlNet 和 T2I-Adapter - 图88
https://twitter.com/toyxyz3/status/1626835630176215045?s=20

但第二天，社区就发现了 Semantic Segmentation 的一个特质。Semantic Segmentation 语义分割是一种深度学习算法，名字里有“语义”一词是有含义的。这种算法将一个标签或类别与图像中的每个像素联系起来。被用来识别形成不同类别的像素集合。例如，常见应用于自动驾驶、医疗成像和工业检测。比如帮助自动驾驶汽车识别车辆、行人、交通标志、路面等不同对象的特征。而每种标签都会有一个对应的标记颜色。

从 ControlNet 的论文中可知，它使用的 segmentation map model 用的是 ADE20K 的协议。ADE20K 公开了它用于标注不同语义segments的颜色代码。

精确控制 AI 图像生成的破冰方案，ControlNet 和 T2I-Adapter - 图89
https://www.researchgate.net/figure/Semantic-labels-of-ADE20K-data-set-in-BGR-format_fig2_339839515

这就意味着在设计 Segmentation map 引导图时，创作者可以反过来用。比如改变某个 segment 的颜色，使之与 ADE20K 算法用于标注时的语义一致，比如 ADE20K 用于标注“钟表”的是草绿色，把背景那个形状块涂成草绿色，生成时，这个形状块就更大概率会被引导向生成钟表，其实该形状块与钟表常见的圆形形状不符。

不得不说，Stable Diffusion 玩家们的 Hacking 能力实在是强大。

精确控制 AI 图像生成的破冰方案，ControlNet 和 T2I-Adapter - 图90
https://twitter.com/toyxyz3/status/1627286943783612416?s=20