跳到内容

AI 艺术生成手册/扩散模型

来自维基教科书,开放的书籍,开放的世界

注意 1:目前公共领域有许多类型的扩散模型,每个 AI 艺术 - 文本模型都有不同的实现方式。

(有些可能甚至比这里介绍的更好/完全不同的实现方式。)

注意 2:本章专门介绍扩散模型如何为大众工作的整体思路/通俗指南。

正向扩散模型

[编辑 | 编辑源代码]

首先,为了训练扩散模型,正向扩散模型将逐层添加噪声。 .

在这个例子中,我们有一张岩石河床上犀牛的图像。从 T=0(原始图像)开始,正向扩散模型会为每一步(T)连续添加越来越多的噪声,直到图像几乎无法识别。尽管这看起来违反直觉,但整个过程将教会正向扩散模型如何从图像中去除噪声,从而教导去噪扩散模型。

Example of Forward Diffusion Models

扩散去噪模型

[编辑 | 编辑源代码]

下一个过程是扩散去噪模型,它将从之前的正向扩散模型中学习如何从图像中去除噪声。

扩散去噪模型将尝试从输入图像中去除一个“步骤”的噪声,并一遍又一遍地重复这个过程,直到它最终能够在 T=0(原始图像)处重建图像。

但是,这个过程几乎永远无法创建原始图像的精确副本,并且会在输出中引入一些偏差。

潜在扩散模型

[编辑 | 编辑源代码]

根据维基词典,在这个语境中,“潜在”是指潜伏或隐藏,直到条件适合发展

因此,在这个模型上下文中,潜在扩散模型意味着,模型不是直接对整体图像应用扩散过程,而是将输入投影到一个压缩的图像表示/潜在空间(而不是完整的图像),然后对该空间应用扩散模型来重建图像。

4class3ddiscriminant

潜在空间可以用左侧的图片来可视化。 (为了便于理解,可以用 3D 散点图来表示)

例如,我们可能需要对动物进行分类,例如爪哇犀牛。

对于爪哇犀牛,有许多类型的分类,例如动物的角、灰色的皮肤、濒危动物等等。

为了提高效率和节省空间,潜在空间只关心爪哇犀牛的最重要的、最容易区分的特征(例如,生活在爪哇雨林中,只有一角动物)。潜在空间还关注压缩图像表示与其他特征重叠的可能性。

因此,爪哇犀牛的区分特征在潜在空间的表示中被聚类。

结果是,椅子的表示变得不那么清晰,更相似。如果想象它们在潜在空间中的表示,爪哇犀牛数据集会“更靠近”在一起。


参考文献

[编辑 | 编辑源代码]

https://web.archive.org/web/20221129071811/https://www.louisbouchard.ai/latent-diffusion-models/

https://towardsdatascience.com/what-are-stable-diffusion-models-and-why-are-they-a-step-forward-for-image-generation-aa1182801d46

https://web.archive.org/web/20221129072114/https://www.assemblyai.com/blog/diffusion-models-for-machine-learning-introduction/

https://medium.com/from-the-diaries-of-john-henry/denoising-diffusion-based-generative-modeling-5daadc1d8ce2

https://towardsdatascience.com/understanding-latent-space-in-machine-learning-de5a7c687d8d

华夏公益教科书