AI 艺术生成手册/扩散模型

注意 1：目前公共领域有许多类型的扩散模型，每个 AI 艺术 - 文本模型都有不同的实现方式。

(有些可能甚至比这里介绍的更好/完全不同的实现方式。)

注意 2：本章专门介绍扩散模型如何为大众工作的整体思路/通俗指南。

正向扩散模型

首先，为了训练扩散模型，正向扩散模型将逐层添加噪声。 .

在这个例子中，我们有一张岩石河床上犀牛的图像。从 T=0（原始图像）开始，正向扩散模型会为每一步（T）连续添加越来越多的噪声，直到图像几乎无法识别。尽管这看起来违反直觉，但整个过程将教会正向扩散模型如何从图像中去除噪声，从而教导去噪扩散模型。

下一个过程是扩散去噪模型，它将从之前的正向扩散模型中学习如何从图像中去除噪声。

扩散去噪模型将尝试从输入图像中去除一个“步骤”的噪声，并一遍又一遍地重复这个过程，直到它最终能够在 T=0（原始图像）处重建图像。

但是，这个过程几乎永远无法创建原始图像的精确副本，并且会在输出中引入一些偏差。

根据维基词典，在这个语境中，“潜在”是指潜伏或隐藏，直到条件适合发展。

因此，在这个模型上下文中，潜在扩散模型意味着，模型不是直接对整体图像应用扩散过程，而是将输入投影到一个压缩的图像表示/潜在空间（而不是完整的图像），然后对该空间应用扩散模型来重建图像。

潜在空间可以用左侧的图片来可视化。 (为了便于理解，可以用 3D 散点图来表示)

例如，我们可能需要对动物进行分类，例如爪哇犀牛。

对于爪哇犀牛，有许多类型的分类，例如动物的角、灰色的皮肤、濒危动物等等。

为了提高效率和节省空间，潜在空间只关心爪哇犀牛的最重要的、最容易区分的特征（例如，生活在爪哇雨林中，只有一角动物）。潜在空间还关注压缩图像表示与其他特征重叠的可能性。

因此，爪哇犀牛的区分特征在潜在空间的表示中被聚类。

结果是，椅子的表示变得不那么清晰，更相似。如果想象它们在潜在空间中的表示，爪哇犀牛数据集会“更靠近”在一起。