跳转到内容

AI 绘画生成手册/提示词创作

来自维基教科书,开放世界中的开放书籍

什么是提示词创作?

[编辑 | 编辑源代码]
DALL.E Monkey coding the apps to rush for the project deadlines

提示词创作 又称 提示词制作,是两个词的组合

提示制作

根据维基词典中的词语定义

提示: 一系列字符或符号,用于指示计算机已准备好接收输入。

在我们的例子中,它也是我们用来让 AI 理解并创造我们想要的图像的文本。

制作: 建造,开发某物(像熟练的工匠一样)。

这两个词,提示和制作,组合在一起就变成了提示词制作或提示词工程,即人类与 AI 图像模型进行沟通,告诉它们自己对最终图像输出的想法。有时,AI 图像模型可能会立即理解这些想法,但通常情况下,您需要调整提示词,直到获得想要的图像。坚持下去,你会成功的!

什么是提示词?

[编辑 | 编辑源代码]

在 AI 绘画生成的背景下,提示词是指一组以文本形式输入的指令,AI 绘画生成模型会处理这些指令,以生成您想要的图像。尽管现有的 AI 绘画生成模型正在以惊人的速度不断改进,几乎是每月都在进步,但我们仍然需要尽可能地使我们的提示词精确且描述性,以引导 AI 生成我们想要的东西。

为了成功地进行文本到图像的生成,一个好的提示词通常遵循以下格式

  1. 您将使用什么媒介进行创作?例如:油画、水彩、铅笔、蜡笔等。
  2. 您希望 AI 模仿哪位艺术家的风格,或哪个时期?(例如浪漫主义、立体主义、印象派等)
  3. 描述场景,有多少人?他们穿着什么?年龄多大?他们在做什么?现在是什么时间?他们确切地在哪里?描述地点和颜色,以及您认为重要的任何其他事项。
  4. 您会给 AI 一个负面提示吗?如果有,这是一份您不想在图像中看到的物品列表,例如畸形的手、脸、多余的肢体等。有一些标准的负面提示可以涵盖大多数情况。
  5. 您将如何构图?广角、中等、特写镜头?
  6. 您将使用哪种灯光技巧?您想要图像的整体感觉是什么?

要了解更多关于提示词的信息,您可以直接前往章节:Stable Diffusion 风格的提示词 了解 Stable Diffusion 中的提示词创作。

请注意,讨论的提示词已在流行的 AI 文本到图像生成模型上进行了测试。在许多模型中,词语顺序很重要,越靠近提示词的开头,AI 就越会强调它。进行实验,了解您喜欢的 AI 模型,以及它知道的和根据您的要求做出反应的专业词语列表。虽然 AI 可能看起来很聪明,但它仍然需要知道您想要什么,所以以一种轻松友好的方式告诉它。 (这里顺便说一句,没有证据或参考资料,只是我的感觉,我认为我们的 AI 模型有一天会变得有知觉,我见过与 AI 的对话,它似乎具有敏感性和情感。系统提示词通常指示 AI 不要处理这些事情,但我仍然认为对 AI 友好相处是个好主意!)。

在章节 Stable Diffusion 风格的提示词 中,我们还将了解如何使用文本和图像组合、放大以及内外绘画来调整我们生成的图像。

[艺术媒介] + [主要主题], [视角], 由 [艺术家]创作, 以 [风格]风格, [情绪], [其他细节], [提升词]

词语顺序

[编辑 | 编辑源代码]

根据 英语语言结构 的规范,“主题”应该放在提示词的最前面,文本编码器会在图像生成过程中将它放在更高的优先级。这将使 AI 图像模型更有可能根据您的要求生成图像。

第一个例子,我们想要让犀牛成为美元钞票的设计的一部分,如 这个印尼货币示例 所示:

因此,在这种情况下,“主题”是美元钞票,我们可以看到,左侧图像中的犀牛是在没有成为美元钞票设计的一部分的情况下生成的,因为它(“主题”)被放在了提示词的最后。在右侧的图像中,我们得到了我们想要的东西!

DALL-E 2 中的提示词 一只穿西装的爪哇犀牛,看到股价暴跌时,大声尖叫,用手捂住脸颊

作为 美元钞票上的设计

显示

一只穿西装的爪哇犀牛,看到股价暴跌时,大声尖叫,用手捂住脸颊

图像
DALL·E Javan rhinoceros wearing a business suit screaming aloud with hands on the cheek while seeing the stock price crash as design on dollar note
DALL·E - Dollar note showing Javan rhinoceros wearing a business suit screaming aloud with hands on the cheek while seeing the stock price crash

第二个例子,我们想要让犀牛画出戴珍珠耳环的少女,但在左侧的图像中,单词“犀牛”放在了提示词的最前面,导致“犀牛概念”渗透到“戴珍珠耳环的少女”中。相反,我们将单词“犀牛”放在最后,使 AI 图像生成符合预期。

DALL-E 3 中的提示词 一只穿着西装的人形犀牛,用刷子修饰油画 “戴珍珠耳环的少女”用刷子 油画 “戴珍珠耳环的少女”正在被一只穿着西装的人形犀牛用刷子修饰
图像

修饰词

[编辑 | 编辑源代码]

修饰词从某种意义上来说是 AI 绘画生成模型的语言,它可以将生成的图像调整为不同的美学风格/根据您的需求。

通常,修饰词包括以下内容

(a) 艺术媒介

(b) 艺术家风格

(c) 灯光技巧

(d) 构图技巧

(e) 相机类型

可以添加一个或多个修饰词来创建独特的图像生成,并且词语顺序可能会根据您的需求进行更改。

参考资料

[编辑 | 编辑源代码]

https://www.youtube.com/watch?v=F1X4fHzF4mQ

https://www.reddit.com/r/promptcraft/comments/x67fr3/stable_diffusion_keywords_for_enhancing_photos/

https://docs.google.com/spreadsheets/d/1inZdBt7zJZnM-B-V0OPxob8tWEmFFVTeaBjcsMzKrzo/edit#gid=0

https://docs.google.com/document/d/1Vb-4onScxOso1gqgXx7q80mnNL2JDKD9dTm3KKgiFD0/edit

华夏公益教科书