AI 艺术生成手册/AI 如何生成艺术?
人工智能的兴起导致了 AI 生成图像的创建和增强激增(尤其是在 2022 年,DALL-E2 发布之后),产生了高度详细和富有想象力的艺术作品。这种发展可能会促使用户问:“AI 如何生成艺术?”
人类通常从周围环境中汲取灵感——例如森林、城市景观和他们自己的反思,并将这些灵感融入他们的艺术作品中。
类似地,AI 艺术涉及借助生成式 AI 创建艺术作品。这项技术识别大型数据集中的模式,并利用这些知识来生成新内容。要创建 AI 艺术,需要一个 AI 艺术生成器,例如 Stable Diffusion,以及一个概念。AI 艺术家输入一个详细的提示,然后工具会根据提供的描述解释该提示,以生成基于描述的图像选项。
艺术家 维拉·莫尔纳,一位匈牙利艺术家,从 1968 年开始尝试使用早期编程语言来制作随机生成的艺术作品。她的几何作品被认为是生成式艺术的先驱,被纳入主要博物馆收藏。她被认为是生成式艺术的先驱,她的几何作品被纳入主要博物馆收藏。
这种能力背后的核心技术被称为 神经网络。神经网络是一种复杂的数学系统或算法,旨在模拟人脑中的生物神经网络,其功能是在广泛的数据集中识别模式。
神经网络包含几个组件:[3]
(i) 输入层:此层接收初始输入数据,例如图像、文本或数值。
(ii) 隐藏层:它们是输入层和输出层之间的中间层,大多数数学运算(例如矩阵乘法)都在这里进行。
(iii) 输出层:此层产生神经网络的最终输出,即生成的输出(例如图像或文本)。
(iv) 连接(权重和偏差):相邻层中的神经元通过权重连接,权重决定连接的强度。偏差是额外的参数,它们会改变神经元的激活。
当用户提示 AI 生成器描绘一只狗时,神经网络会利用其经过训练的大量信息来创建新的图像。此过程涉及复杂互连节点层,模拟人脑处理信息的方式。AI 艺术家的作用是对这些生成的图像进行细化,引导 AI 模型生成特定的场景,例如一只狗模仿戴着贝雷帽的法国人,一只狗坐在酒吧里,或者一只狗在厨房里跳舞。这些神经网络充满了经过训练的数据,但正是用户创造力和方向真正塑造了 AI 生成的艺术。
-
戴着贝雷帽的狗由 Di (they-them) 生成
-
坐在酒吧里的狗由 Michal.palasek 生成
-
在厨房里跳舞的狗由 Jan.strecha 生成
AI 艺术有 2 个主要部分:训练和推理 [4]
训练:训练是训练神经网络模型学习训练数据中存在的模式和关系的过程。
推理:推理是使用训练后的模型对新的、以前从未见过的数据进行预测或生成输出的过程。
在人工智能领域,训练数据是生成式 AI 的核心。然而,正如谚语所说,质量胜于数量。总而言之,普遍共识是,图像美学质量和更好的图像描述/字幕远胜于 AI 模型能够处理的“令牌”。所有 AI 模型都是使用文本字幕-图像对进行训练的,其中最流行的方法之一是使用 CLIP [5]。以下是已知的图像数据集训练规模
实体 | 图像数据集训练规模 |
---|---|
Midjourney | ~1B+ [a] |
DALL-E2 | 250M [b] |
Craiyon | 15M [c] |
Google Imagen | 860M [d] |
Stable Diffusion 1.5 | 400M [e] |
Stable Diffusion XL (SDXL) | 1.8M+1.2M [f] |
图片展示了 AI 文本转图像过度简化的过程流程图,从单词转换到图像,直到生成图像。
(A) 以单词形式输入的提示文本通过 文本编码器 被“标记化”成标记。
(B) 然后将标记映射到密集的向量表示(嵌入向量),捕获标记的语义和上下文信息。
(C) 扩散模型 基于嵌入向量使用前向扩散技术生成图像。
(D) 密集的向量表示(潜在向量)代表潜在的图像表示,是生成图像的必要视觉特征、内容和属性,压缩成潜在空间表示。
(D) 图像解码器根据潜在向量中编码的信息合成视觉特征,例如纹理、颜色、形状等。合成图像后,它会对图像进行上采样,同时执行增强,以提高图像美观度。
[1] https://builtin.com/artificial-intelligence/how-does-AI-generated-art-work
[2] https://www.adobe.com/products/firefly/discover/what-is-ai-art.html
[3] https://www.youtube.com/playlist?list=PLZHQObOWTQDNU6R1_67000Dx_ZCJB-3pi
[4]https://blogs.nvidia.com/blog/difference-deep-learning-training-inference-ai/
[5] https://arxiv.org/abs/2204.06125
[6] https://www.youtube.com/watch?v=9YrYDqhJdPw
[a] https://www.theregister.com/2022/08/01/david_holz_midjourney/
[b] https://cdn.openai.com/papers/dall-e-2.pdf
[c] https://arxiv.org/pdf/2208.09333
[d] https://arxiv.org/pdf/2205.11487
[e] https://arxiv.org/pdf/2112.10752
[f] https://clarifai.com/stability-ai/stable-diffusion-2/models/stable-diffusion-xl