跳转到内容

AI 艺术生成手册/AI 如何生成艺术?

来自维基教科书,开放世界中的开放书籍

人工智能的兴起导致了 AI 生成图像的创建和增强激增(尤其是在 2022 年,DALL-E2 发布之后),产生了高度详细和富有想象力的艺术作品。这种发展可能会促使用户问:“AI 如何生成艺术?”

人类通常从周围环境中汲取灵感——例如森林、城市景观和他们自己的反思,并将这些灵感融入他们的艺术作品中。

类似地,AI 艺术涉及借助生成式 AI 创建艺术作品。这项技术识别大型数据集中的模式,并利用这些知识来生成新内容。要创建 AI 艺术,需要一个 AI 艺术生成器,例如 Stable Diffusion,以及一个概念。AI 艺术家输入一个详细的提示,然后工具会根据提供的描述解释该提示,以生成基于描述的图像选项。

艺术家 维拉·莫尔纳,一位匈牙利艺术家,从 1968 年开始尝试使用早期编程语言来制作随机生成的艺术作品。她的几何作品被认为是生成式艺术的先驱,被纳入主要博物馆收藏。她被认为是生成式艺术的先驱,她的几何作品被纳入主要博物馆收藏。

这种能力背后的核心技术被称为 神经网络。神经网络是一种复杂的数学系统或算法,旨在模拟人脑中的生物神经网络,其功能是在广泛的数据集中识别模式。

神经网络包含几个组件:[3]

(i) 输入层:此层接收初始输入数据,例如图像、文本或数值。

(ii) 隐藏层:它们是输入层和输出层之间的中间层,大多数数学运算(例如矩阵乘法)都在这里进行。

(iii) 输出层:此层产生神经网络的最终输出,即生成的输出(例如图像或文本)。

(iv) 连接(权重和偏差):相邻层中的神经元通过权重连接,权重决定连接的强度。偏差是额外的参数,它们会改变神经元的激活。

当用户提示 AI 生成器描绘一只狗时,神经网络会利用其经过训练的大量信息来创建新的图像。此过程涉及复杂互连节点层,模拟人脑处理信息的方式。AI 艺术家的作用是对这些生成的图像进行细化,引导 AI 模型生成特定的场景,例如一只狗模仿戴着贝雷帽的法国人,一只狗坐在酒吧里,或者一只狗在厨房里跳舞。这些神经网络充满了经过训练的数据,但正是用户创造力和方向真正塑造了 AI 生成的艺术。


AI 艺术有 2 个主要部分:训练和推理 [4]

训练:训练是训练神经网络模型学习训练数据中存在的模式和关系的过程。

推理:推理是使用训练后的模型对新的、以前从未见过的数据进行预测或生成输出的过程。

在人工智能领域,训练数据是生成式 AI 的核心。然而,正如谚语所说,质量胜于数量。总而言之,普遍共识是,图像美学质量和更好的图像描述/字幕远胜于 AI 模型能够处理的“令牌”。所有 AI 模型都是使用文本字幕-图像对进行训练的,其中最流行的方法之一是使用 CLIP [5]。以下是已知的图像数据集训练规模

实体 图像数据集训练规模
Midjourney ~1B+ [a]
DALL-E2 250M [b]
Craiyon 15M [c]
Google Imagen 860M [d]
Stable Diffusion 1.5 400M [e]
Stable Diffusion XL (SDXL) 1.8M+1.2M [f]

图片展示了 AI 文本转图像过度简化的过程流程图,从单词转换到图像,直到生成图像。


(A) 以单词形式输入的提示文本通过 文本编码器 被“标记化”成标记。

(B) 然后将标记映射到密集的向量表示(嵌入向量),捕获标记的语义和上下文信息。

(C) 扩散模型 基于嵌入向量使用前向扩散技术生成图像。

(D) 密集的向量表示(潜在向量)代表潜在的图像表示,是生成图像的必要视觉特征、内容和属性,压缩成潜在空间表示。

(D) 图像解码器根据潜在向量中编码的信息合成视觉特征,例如纹理、颜色、形状等。合成图像后,它会对图像进行上采样,同时执行增强,以提高图像美观度。

参考资料

[编辑 | 编辑源代码]

[1] https://builtin.com/artificial-intelligence/how-does-AI-generated-art-work

[2] https://www.adobe.com/products/firefly/discover/what-is-ai-art.html

[3] https://www.youtube.com/playlist?list=PLZHQObOWTQDNU6R1_67000Dx_ZCJB-3pi

[4]https://blogs.nvidia.com/blog/difference-deep-learning-training-inference-ai/

[5] https://arxiv.org/abs/2204.06125

[6] https://www.youtube.com/watch?v=9YrYDqhJdPw

[a] https://www.theregister.com/2022/08/01/david_holz_midjourney/

[b] https://cdn.openai.com/papers/dall-e-2.pdf

[c] https://arxiv.org/pdf/2208.09333

[d] https://arxiv.org/pdf/2205.11487

[e] https://arxiv.org/pdf/2112.10752

[f] https://clarifai.com/stability-ai/stable-diffusion-2/models/stable-diffusion-xl

华夏公益教科书