AI 艺术生成手册/扩散模型
注意 1:目前公共领域有许多类型的扩散模型,每个 AI 艺术 - 文本模型都有不同的实现方式。
(有些可能甚至比这里介绍的更好/完全不同的实现方式。)
注意 2:本章专门介绍扩散模型如何为大众工作的整体思路/通俗指南。
首先,为了训练扩散模型,正向扩散模型将逐层添加噪声。 .
在这个例子中,我们有一张岩石河床上犀牛的图像。从 T=0(原始图像)开始,正向扩散模型会为每一步(T)连续添加越来越多的噪声,直到图像几乎无法识别。尽管这看起来违反直觉,但整个过程将教会正向扩散模型如何从图像中去除噪声,从而教导去噪扩散模型。
下一个过程是扩散去噪模型,它将从之前的正向扩散模型中学习如何从图像中去除噪声。
扩散去噪模型将尝试从输入图像中去除一个“步骤”的噪声,并一遍又一遍地重复这个过程,直到它最终能够在 T=0(原始图像)处重建图像。
但是,这个过程几乎永远无法创建原始图像的精确副本,并且会在输出中引入一些偏差。
根据维基词典,在这个语境中,“潜在”是指潜伏或隐藏,直到条件适合发展。
因此,在这个模型上下文中,潜在扩散模型意味着,模型不是直接对整体图像应用扩散过程,而是将输入投影到一个压缩的图像表示/潜在空间(而不是完整的图像),然后对该空间应用扩散模型来重建图像。
潜在空间可以用左侧的图片来可视化。 (为了便于理解,可以用 3D 散点图来表示)
例如,我们可能需要对动物进行分类,例如爪哇犀牛。
对于爪哇犀牛,有许多类型的分类,例如动物的角、灰色的皮肤、濒危动物等等。
为了提高效率和节省空间,潜在空间只关心爪哇犀牛的最重要的、最容易区分的特征(例如,生活在爪哇雨林中,只有一角动物)。潜在空间还关注压缩图像表示与其他特征重叠的可能性。
因此,爪哇犀牛的区分特征在潜在空间的表示中被聚类。
结果是,椅子的表示变得不那么清晰,更相似。如果想象它们在潜在空间中的表示,爪哇犀牛数据集会“更靠近”在一起。
https://web.archive.org/web/20221129071811/https://www.louisbouchard.ai/latent-diffusion-models/
https://towardsdatascience.com/understanding-latent-space-in-machine-learning-de5a7c687d8d