当前位置：首页>学习笔记>多模态大模型学习笔记(三十五)—— 扩散模型与可控生成:从AI涂鸦到精准作画的技术革命

多模态大模型学习笔记(三十五)—— 扩散模型与可控生成:从AI涂鸦到精准作画的技术革命

2026-04-17 19:15:23

扩散模型与可控生成：从AI涂鸦到精准作画的技术革命

你是否惊叹于Midjourney能根据一句文字生成堪比大师的画作？是否好奇Stable Diffusion如何将你的线稿瞬间变成高清插画？是否见过ControlNet精准控制人物姿态和建筑结构的神奇效果？这些现象级应用的背后，都离不开扩散模型（Diffusion Models） 这一AI生成技术的核心引擎。

如果说生成模型是AI的"画笔"，那么扩散模型就是目前最锋利的那一支。而ControlNet、LoRA等条件控制技术，则让这支画笔从"随机涂鸦"进化为"精准作画"，真正实现了"所想即所得"。本文将带你从零开始，系统了解生成模型的发展历程、扩散模型的核心原理，以及可控生成的关键技术，揭开AI画图背后的技术奥秘。

点击下方卡片，关注“人工智能陈小白”

视觉/大模型/图像重磅干货，第一时间送达!

1 生成模型全景：五大流派的百年竞逐

生成模型的目标是让计算机学习数据的分布，从而生成与真实数据相似的新样本。简单来说，就是让AI学会"创造"——创造图像、视频、音频、文本等各种形式的内容。

1.1 生成模型的五大流派与历史脉络

自深度学习兴起以来，生成模型领域涌现出了五大主流技术流派，它们在不同时期各领风骚，共同推动了AI生成技术的进步：

技术流派	提出时间	代表模型	核心思想	优势	局限性
变分自编码器(VAE)	2013年	VAE、β-VAE	基于概率建模，将数据编码到潜空间再解码生成	训练稳定，潜空间连续可解释	生成图像模糊，细节不足
生成对抗网络(GAN)	2014年	DCGAN、StyleGAN、CycleGAN	生成器与判别器对抗训练，互相博弈提升	生成图像清晰度高，细节丰富	训练不稳定，容易模式崩溃
归一化流(Normalizing Flows)	2014年	RealNVP、Glow	通过可逆变换将数据映射到简单分布	精确的对数似然，生成过程可逆	计算成本高，模型复杂度大
自回归模型	2016年	PixelCNN、GPT	逐像素/逐token生成，建模序列依赖	生成质量高，序列建模能力强	生成速度慢，并行性差
扩散模型	2020年	DDPM、Stable Diffusion、Sora	逐步加噪再逐步去噪，基于概率扩散	训练稳定，文本对齐好，可控性强	原始采样速度慢，需加速优化

1.2 为什么扩散模型最终胜出？

在2021年之前，GAN一直是图像生成领域的绝对王者，尤其是StyleGAN生成的人脸几乎达到了以假乱真的程度。但为什么最终是扩散模型后来居上，成为了AI生成技术的主流？

核心原因在于扩散模型解决了GAN的两大致命缺陷：

1. 训练稳定性：GAN的训练是一个"零和博弈"，生成器和判别器需要达到微妙的平衡，稍有不慎就会出现模式崩溃（生成的样本千篇一律）或梯度消失。而扩散模型的训练是一个简单的回归任务，目标是预测噪声，训练过程非常稳定。
2. 可控性与多样性：GAN很难在生成质量和多样性之间取得平衡，而且难以精确控制生成内容的结构和细节。扩散模型天然支持多种条件控制（文本、图像、姿态等），并且可以通过调整采样步数和参数，在质量和多样性之间灵活切换。

此外，扩散模型还具有文本对齐更好、易于扩展到视频和3D等优势，这使得它成为了目前最适合通用生成任务的技术框架。

2 基础生成模型：VAE与GAN的奠基之路

虽然扩散模型已经成为主流，但VAE和GAN作为生成模型的两大基石，它们的思想和技术仍然被广泛应用于现代扩散模型中。例如，Stable Diffusion的核心架构就使用了VAE来压缩图像，而GAN的对抗训练思想也被用于提升扩散模型的生成质量。

2.1 VAE：变分自编码器的数学魔法

2.1.1 传统自编码器(AE)的局限

传统自编码器由编码器(Encoder)和解码器(Decoder)两部分组成：

• 编码器将输入图像压缩成一个低维的潜向量(z)
• 解码器将潜向量还原成原始图像

它的目标是最小化重建误差，让输出图像尽可能接近输入图像。但传统AE有一个致命的问题：潜空间是碎片化的。

每张图像都会占据潜空间中的一小块区域，区域之间没有任何联系。当我们随机采样一个潜向量时，很可能会落到"无主之地"，解码出来的结果会是毫无意义的噪声。

2.1.2 VAE的核心思想：概率化潜空间

VAE（变分自编码器）的创新之处在于，它将潜空间从"确定性的点"变成了"概率分布"。

对于每张输入图像x，编码器不再输出一个固定的潜向量z，而是输出一个高斯分布的均值(μ)和方差(σ²)。然后我们从这个分布中采样一个潜向量z，再送入解码器生成图像。

为了解决潜空间碎片化的问题，VAE引入了KL散度约束，强制让所有的分布都尽可能接近标准正态分布N(0, I)。这样，整个潜空间就变成了一个连续、规则的空间，任意采样一个点都能解码出有意义的图像。

2.1.3 VAE的损失函数详解

VAE的损失函数由两部分组成：

• 重建损失：衡量生成图像与原始图像的相似度，目标是让重建效果尽可能好
• KL散度损失：衡量编码器输出的分布与标准正态分布的差异，目标是让潜空间更规则
• β参数：用于平衡两部分损失的权重

• β=1：标准VAE
• β>1：更强的KL约束，潜空间更规则，但重建会更模糊
• β<1：弱化KL约束，模型更重视重建，生成图像更清晰

2.2 GAN：生成对抗网络的"猫鼠游戏"

GAN（生成对抗网络）的核心思想是"对抗训练"，它由两个神经网络组成：生成器(Generator) 和判别器(Discriminator)。

• 生成器：接收随机噪声作为输入，生成假样本，目标是"骗过"判别器
• 判别器：接收真实样本和生成器生成的假样本，目标是准确区分真假

这就像一场猫鼠游戏：生成器努力让自己生成的样本越来越像真的，判别器努力提高自己的鉴别能力。在不断的对抗训练中，两者的能力都会越来越强，最终生成器生成的样本几乎可以以假乱真。

2.2.1 GAN家族的经典成员

GAN自提出以来，衍生出了众多变种，其中最具影响力的有：

模型	提出时间	核心创新	典型应用
DCGAN	2015年	用卷积层取代全连接层，让GAN更适合图像生成	基础图像生成
Pix2Pix	2016年	条件GAN，实现图像到图像的转换	素描转照片、黑白转彩色
CycleGAN	2017年	不需要成对数据的图像转换	马转斑马、夏天转冬天、照片转莫奈风格
WGAN-GP	2017年	引入Wasserstein距离和梯度惩罚，解决训练不稳定问题	通用GAN训练
StyleGAN	2018年	风格化生成，通过控制不同层级的特征来控制图像风格	超真实人脸生成

2.2.2 StyleGAN：GAN时代的巅峰之作

StyleGAN是NVIDIA在2018年推出的人脸生成模型，它生成的人脸质量之高，至今仍令人惊叹。StyleGAN的核心创新是风格解耦：

• 将图像生成过程分解为不同的层级，低层级控制整体结构（脸型、发型），高层级控制细节（眼睛、嘴巴、皮肤纹理）
• 通过调整不同层级的风格向量，可以精确控制生成人脸的各种特征

后续的StyleGAN2解决了"水波纹伪影"问题，StyleGAN3则解决了"混叠"问题，进一步提升了生成质量和一致性。

3 扩散模型：AI画图的核心引擎

2020年，DDPM（Denoising Diffusion Probabilistic Model）的发表标志着扩散模型时代的到来。虽然最初的DDPM生成速度极慢（需要上千步才能出一张图），但它展现出的训练稳定性和生成质量，让研究者们看到了巨大的潜力。

3.1 扩散模型的基本原理："逐步去污"的智慧

扩散模型的灵感来源于物理学中的扩散现象：一滴墨水滴入水中，会逐渐扩散均匀，最终变成一杯浑浊的水。这个过程是不可逆的，但我们可以训练一个模型来模拟它的逆过程——从浑浊的水中还原出原来的墨水。

3.1.1 前向扩散过程：逐步加噪

前向扩散过程是一个确定性的过程：我们从一张干净的图像x₀开始，逐步向其中添加高斯噪声，经过T步（通常T=1000）后，图像会变成完全的高斯噪声。

其中，是一个预先设定的常数，随着t的增大而逐渐减小；是服从标准正态分布的噪声。

这个过程的关键在于，我们可以直接计算出任意时刻t的带噪图像，而不需要一步步迭代：

其中，。

3.1.2 反向扩散过程：逐步去噪

反向扩散过程是我们需要训练模型来学习的过程：从完全的高斯噪声开始，逐步预测并去除每一步的噪声，最终还原出干净的图像x₀。

扩散模型的核心训练目标非常简单：给定带噪图像和时间步t，预测添加到图像上的噪声ε。

训练完成后，我们就可以通过以下迭代公式来生成图像：

其中，是模型预测的噪声，是一个小的随机噪声项，用于增加生成结果的多样性。

3.2 扩散模型的技术演进路线

从2020年DDPM诞生到今天，扩散模型的技术演进主要围绕**"效率"和"控制"**两大主题展开，形成了两条清晰的技术路线：

年份	方法论	代表模型	核心突破
2020年	DDPM诞生	DDPM	奠定扩散模型的基础理论框架
2021年	潜空间扩散(LDM)	LDM	将扩散过程从像素空间转移到潜空间，计算量降低10-100倍
2021年	确定性采样	DDIM	将随机扩散转为确定性轨迹，采样步数从1000步减少到50步
2022年	高阶ODE解法	Euler、Heun、LMS	进一步减少采样步数，提升生成质量
2023年	更高效的ODE解法	DPM-Solver、DPM++	工业界首选，20-30步即可生成高质量图像
2024年	一致性模型	LCM、CM	无需数值积分，1-4步即可出图，实现实时生成

3.2.1 A路线：从DDPM到Stable Diffusion

这条路线的核心是降低计算成本，让扩散模型能够在消费级显卡上运行。

2021年提出的LDM（Latent Diffusion Model） 是一个里程碑式的突破。它的核心思想是：

1. 先用一个预训练的VAE将高分辨率的图像压缩到低维的潜空间
2. 在潜空间中进行扩散和去噪过程
3. 最后用VAE的解码器将潜空间特征还原成高分辨率图像

这样做的好处是，潜空间的维度比像素空间小得多（例如，512x512的RGB图像压缩后变成64x64的特征图），计算量可以降低两个数量级，而生成质量几乎没有损失。

Stable Diffusion 就是基于LDM架构开发的，它于2022年开源，彻底引爆了AI生成技术的革命。Stable Diffusion的核心架构是：

CLIP文本编码器 + LDM扩散模型 + VAE编解码器 + DDIM采样器

目前Stable Diffusion已经发展到了3.5版本，主流版本的显存要求如下：

• SD 1.5：4GB显存即可运行
• SDXL 1.0：8GB显存
• SD 3.5 Medium：10GB显存
• SD 3.5 Large：32GB显存

3.2.2 B路线：从DDIM到LCM的加速革命

这条路线的核心是提升采样速度，让扩散模型能够实现实时生成。

• DDIM：2021年提出，将扩散过程从随机的SDE（随机微分方程）转为确定性的ODE（常微分方程），采样步数从1000步减少到50步
• DPM-Solver：2023年提出，是一种高阶的ODE数值解法，20步即可生成与DDIM 50步相当的质量，成为目前工业界的首选采样器
• LCM（Latent Consistency Model）：2024年提出，彻底抛弃了数值积分的思路，训练模型直接学会"跳步"生成，1-4步即可出图，实现了实时生成

LCM的出现让AI画图从"分钟级"进入了"秒级"，为实时交互应用（如AI绘画软件、虚拟人直播）奠定了基础。

4 可控生成：让AI听懂你的指令

早期的扩散模型虽然生成质量很高，但可控性很差。你输入"一只猫"，它可能生成各种姿势、各种品种的猫，但很难精确控制猫的姿态、位置和背景。为了解决这个问题，研究者们开发了一系列条件控制技术，让AI能够真正听懂你的指令。

4.1 固定目标生成：让模型记住"特定事物"

固定目标生成的目标是让模型学会生成一个特定的物体、人物或风格，例如"我的狗"、"梵高的风格"、"某个特定的logo"。

目前主流的固定目标生成方法有三种，它们在训练成本、效果和灵活性上各有优劣：

方法	训练数据量	训练时间	模型大小	效果	灵活性
Textual Inversion	3-5张	几分钟	~100KB	一般	只能控制风格/物体，不能控制结构
LoRA	5-10张	十几分钟	~10-100MB	好	灵活，可组合多个LoRA
DreamBooth	10-20张	几小时	完整模型	最好	生成最稳定，绑定最牢固

4.1.1 LoRA：轻量级微调的王者

LoRA（Low-Rank Adaptation，低秩适配）是目前最流行的轻量级微调方法。它的核心思想是：

• 冻结预训练扩散模型的所有权重
• 在Transformer的注意力层中插入两个小的低秩矩阵
• 训练时只更新这两个低秩矩阵的参数

这样做的好处是：

1. 训练成本极低：只需要训练很少的参数，在消费级显卡上即可完成
2. 模型体积小：训练好的LoRA权重只有几十MB，方便分享和传播
3. 可组合性强：可以同时加载多个LoRA，组合不同的风格和特征

4.1.2 DreamBooth：个性化生成的利器

DreamBooth是一种更强大的个性化生成方法，它可以让模型"记住"一个特定的主体。

DreamBooth的训练流程是：

1. 准备3-5张同一主体的不同角度的照片
2. 给这个主体分配一个唯一的稀有标识符，例如"[V]"
3. 用这些照片和包含"a [V] dog"等格式的文本对模型进行微调

训练完成后，你就可以用"a [V] dog in the beach"、"a [V] dog wearing sunglasses"等提示词，生成这个特定主体在各种场景下的照片。

4.2 结构约束生成：ControlNet的革命

如果说LoRA和DreamBooth解决了"生成什么"的问题，那么ControlNet 就解决了"怎么生成"的问题——它可以精确控制生成图像的结构、姿态、布局和几何形状。

4.2.1 ControlNet解决的痛点

在ControlNet出现之前，扩散模型生成的图像结构经常失控：人物姿势怪异、建筑比例失调、手部畸形等问题非常普遍。这是因为文本提示词很难精确描述复杂的空间结构和几何关系。

ControlNet的出现彻底改变了这一局面。它允许你输入额外的结构信息（如线稿、深度图、人体姿态图、边缘图等），让扩散模型严格按照这个结构来生成图像。

4.2.2 ControlNet的核心原理

ControlNet的核心思想是**"冻结预训练模型+可训练控制分支"**：

1. 冻结预训练的Stable Diffusion模型的所有权重，保留它已经学到的丰富的生成知识
2. 添加一个可训练的控制分支，这个分支与预训练模型的结构完全相同
3. 控制分支接收条件输入（如姿态图），提取结构特征，并将这些特征注入到预训练模型的每一层
4. 训练时只更新控制分支的参数，预训练模型的参数保持不变

这样做的好处是：

• 不会破坏预训练模型的生成能力
• 训练成本低，只需要训练控制分支
• 可以为不同的控制条件训练不同的ControlNet模型，按需加载

4.2.3 常见的ControlNet控制条件

目前已经有很多成熟的ControlNet模型，支持各种不同的控制条件：

• Canny边缘检测：输入线稿，生成对应结构的彩色图像
• 人体姿态(OpenPose)：输入人体骨骼图，生成对应姿态的人物
• 深度图(Depth)：输入深度图，生成对应空间结构的场景
• 法线图(Normal)：输入法线图，控制物体的表面朝向和光照
• 语义分割图(Segmentation)：输入语义分割图，控制不同区域的内容

5 工具生态与领域应用

随着扩散模型技术的成熟，一个庞大的工具生态已经形成，让普通用户也能轻松使用AI生成技术。同时，扩散模型也正在从图像生成向视频、3D、音频等多个领域扩展。

5.1 两大主流工具对比：Diffusers vs ComfyUI

目前最流行的扩散模型工具主要有两个，它们分别面向不同的用户群体：

对比项	Diffusers	ComfyUI
开发者	Hugging Face	ComfyOrg社区
适合人群	开发者、研究者	设计师、创作者、普通用户
核心功能	提供Python API，支持各种扩散模型和控制技术	可视化节点界面，通过拖拽节点构建生成管线
操作方式	代码式，需要编写Python脚本	图形化界面，无需编程
优势	灵活、可编程，适合二次开发和部署	直观、上手快，参数调节方便，支持复杂管线
劣势	有编程门槛，不适合创意探索	不适合大规模训练和批量部署

5.2 扩散模型的跨领域扩展

扩散模型的思想不仅适用于图像生成，还可以扩展到几乎所有的生成任务：

• 文生图：Stable Diffusion、Midjourney、DALL-E 3
• 文生视频：Sora、VEO、Pika
• 文生3D：DreamFusion、Instant3D
• 文生音乐：Stable Audio、Suno
• 语音合成：Fish Speech、ElevenLabs

其中，文生视频是目前最热门的研究方向。2024年OpenAI发布的Sora展示了扩散模型在视频生成领域的巨大潜力，它可以生成长达1分钟、分辨率高达1080p的连贯视频，并且能够准确模拟物理规律和复杂的场景动态。

6 总结与展望

从VAE和GAN的奠基，到扩散模型的爆发，再到ControlNet和LoRA等可控生成技术的成熟，AI生成技术在短短几年内取得了令人瞩目的进步。今天，我们已经可以用AI生成高质量的图像、视频、音频和3D模型，这些技术正在深刻改变设计、影视、游戏、教育等众多行业。

未来，扩散模型技术将继续朝着三个方向发展：

1. 更高的效率：随着LCM等加速技术的不断进步，AI生成将从"秒级"进入"实时级"，实现真正的交互式生成
2. 更强的可控性：更精细的结构控制、更准确的语义对齐、更灵活的风格组合，让AI真正成为人类的创意助手
3. 统一的生成模型：将图像、视频、音频、文本等多种模态统一到一个模型中，实现多模态的联合生成和理解

AI生成技术的革命才刚刚开始，它将释放人类无限的创造力，让"所想即所得"成为现实。

感谢您的阅读！如有任何疑问，欢迎沟通交流。

—THE END—

欢迎同学添加小助手，加入人工智能圈交流群

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

多模态大模型学习笔记(三十五)—— 扩散模型与可控生成:从AI涂鸦到精准作画的技术革命

扩散模型与可控生成：从AI涂鸦到精准作画的技术革命