人工智能艺术应用与改进手册
本人工智能艺术应用与改进手册旨在帮助人们使用人工智能艺术生成器为公共领域创建免费的实用媒体,重点是针对所有技能水平的人,在实践中完成工作。它介绍了显著的潜在应用和现有应用,并为读者提供有关如何最好地实施这些特定应用的信息。
您可以通过多种方式使用这些工具。主要方法包括
- 如果您有一块好的显卡,可以将 Stable Diffusion 安装到本地。是否这样做取决于您的硬件和需求。如果您这样做,AUTOMATIC1111 WebUI可能是最先进的软件,但其他软件也列在这里,并且也有优势。
- 您可以使用 playgroundai.com 这样的网络平台在线使用它(在许多网站上可以免费使用)
- 您可以为艺术软件使用扩展,例如用于 Krita 的扩展或用于 Photoshop 的扩展
哪些提示词效果最好取决于人工智能生成器。 Promptomania 提示词生成器 是一个开始使用提示词和学习不同艺术风格的备忘单的好地方。它缺少很多风格,但可能会随着时间的推移变得更加完整,并且足够用于学习目的。许多网站,如 openart.ai 和 playgroundai.com,允许您查看许多其他可过滤/可搜索的图像以及它们的提示词,您可以利用这些提示词来学习和构建。
这里 是一个更全面的资源,这里 是 Stable Diffusion 的资源列表。您可以使用风格研究(精选的综合研究:1 2 3 4)来了解更多有关您可以使用哪些风格以及如何将多种风格结合起来的信息。但是,使用哪种风格并不难,也不必学习,您只需在提示词中添加诸如“漫画风格”、“3D 渲染”、“哑光画”之类的短语即可。当网站提供预制的风格时,他们通常只是在提示词的末尾添加几个术语。
正如您在下面看到的,这些图像仍然存在一些问题。那些拥有更优秀人工智能艺术技能的人可能能够生成更好的图像。通常,人们可能需要进行一些细微的手动编辑。
此外,随着时间的推移,这些图像可以由上传者或其他人进行改进,例如使用以下工具:
- Clipdrop 清理工具
- 修复绘画(需要一些技能)
- 人工智能艺术网络平台的 [# 面部修复]
- 超分辨率功能
- 在 GIMP 或 Photoshop 等图像编辑器中手动编辑图像
- 使用相同或相似的提示词重新创建图像(示例)
- 人工智能文本去除工具(示例)
- …
如果您能改进现有图像或您之前上传到维基共享资源的图像,请将其上传为新版本,而不是作为单独的新文件上传。如果图像中包含文本,可以使用上述方法将其删除。但是,为了防止文本出现在图像的任何位置,最好使用负面提示词,尽管这可能存在问题,例如,当您想要生成一个街道场景,并且商店文本在背景中可见时。这是一个在生成人工智能艺术时需要学习的特定技能的良好例子:创建适合图像的文本。
您需要不断调整提示词,直到获得良好的结果,有时,在某些情况下,最好从同一个提示词生成一个新图像,而不是调整提示词(确保种子设置为随机,而不是始终相同,除非您希望图像看起来像刚刚生成的图像)。
您还可以通过 img2img 从刚刚生成的图像中生成一个新图像,然后将其作为图层放在 GIMP 中新生成的图像下方。然后,剪切上层,以便在您想要显示的地方显示前者(示例)。
如果您在生成的图像中看到您不希望出现的内容,或者预计人工智能生成器可能会添加这些内容,或者以某种方式误解您的提示词,请将这些内容作为负面提示词添加。
生成以下内容时,一些有用的负面提示词示例:
- 人类:
多余的手指
(待办事项) - 房间:
相框,框架
当您在生成时出现不需要的东西时,添加更多术语以将其从接下来的图像中排除。您还可以使用 img2img 中的结果,并尝试删除不需要的部分,例如,使用先前的提示词,但在清理工具无法很好地删除的情况下,还可以添加额外的负面提示词。
有些图像指定了它们的参数。大约 40 步的步数通常会产生最佳结果。将提示词强度设置得太高,例如超过 10,会使获得良好图像变得更加困难。
Stable Diffusion 是开源的,因此建议使用它,并且本文重点关注它。但是,截至 2023 年,Midjourney 通常在许多情况下会生成更好的图像,而 DALL-E 可能在某些或许多情况下也是如此。例如,SD 和 DALL-E 之间的区别在于,在 SD 中,提示词像由逗号分隔的标签一样表达,而不是完整的句子或类似内容。见这些页面,以比较相同提示词的不同软件结果以及上面链接的风格研究。
AI 艺术可以用来创作逼真的场景,描绘过去可能的样子,例如,以最高分辨率呈现已灭绝的古代生物。为了保证准确性,需要具备相当的技能。对于此类图像,可以使用 img2img 技术。
-
基础图像 1(参见 WMC 古生物艺术分类)
-
基础图像 2
-
基础图像 1
在第一个示例中,腿部的一部分被剪掉了,所以看起来生物正在穿过蕨类植物。
也可以使用像 DreamBoth 这样的工具来训练 AI,使其学习描绘古代生物(如恐龙物种)的一组图像甚至 3D 模型。
不要使用 Commons:Category:Inaccurate paleoart 中的图像作为基础,并对任何你知道不准确的图像添加 Commons:Template:Factual accuracy。请注意,即使基础图像被认为不准确,生成的图像也可能是不准确的,因此也需要该模板。要能够生成或将基础图像转换为逼真的古生物艺术,可能需要良好的古生物学知识和 AI 生成技能。
目前大多数可用的古生物艺术只描绘了已灭绝的生物(例如恐龙),但没有将其放在一个理论上与它同时存在的动植物环境中。那些确实这样做的图像通常分辨率很低。一个例外是 这张图像,它展示了这样的场景可能是什么样子。
古代和远古人类在洞穴中生活,或者没有文明化的生活方式,这种状态持续了数十万年。尽管如此,在公共领域中,没有甚至一张高分辨率图像来描绘大多数人类存在期间的日常生活可能或被认为是什么样子,或者可能是什么样子,至少在 WMC 上没有。这种情况从 20 世纪 20 年代先进的 AI 图像生成器出现后开始改变,下面的两张图像是在 Commons:Category:Ancient and archaic humans in art 中的三张图像中的两张,其中不包括简单的面部重建。
-
基础图像 1
可能需要良好的人类学知识才能创作出不明显不准确且可能逼真的描绘图像。例如,一个主要的缺陷是,AI 艺术生成器可能会生成在史前人类和古代人类的深远过去中不可能或极不可能出现的髮型。另见 WMC 上的“不准确的古生物艺术”。群体审查系统和实践可能会发展起来,提供反馈,以便 AI 艺术工程师可以根据最佳的可用科学知识修改其图像。未来的发展可能会使 古生物学数据和工具 与古生物艺术技术 结合 AI 艺术软件,从而生成更准确和更有用的图像。目前,如果你没有良好的人类学知识,尝试与有这方面知识的人合作,然后再将你的图像发布到公共领域供他人使用。
漫画和公众人物
[edit | edit source]在 20 世纪 20 年代,由于 Stable Diffusion 等 AI 艺术生成器的出现,使用公众人物创作艺术作品变得更加容易。
这
- 使漫画和政治艺术的创作民主化
- 导致了 网络虚假信息 的问题
- 使使用已知人物(包括虚构人物)的幽默艺术成为可能(主要例子:“哈利·斯波特”)
它对某些特定公众人物非常有效,无需任何额外训练。其中一些人以逼真方式易于生成而闻名,例如弗拉基米尔·普京。
一个示例用例是生成一个人的肖像,以及与该人相关联的背景,例如为科学家描绘科学理论的艺术,或为艺术家描绘的艺术风格,例如文森特·梵高的图像暗示着这一点。
同时,在特定环境中使用特定人物可能是一个问题,例如,生成器会多次生成该人,而不是只生成一次,或者还会使该人出现在相框中。这种情况可能会随着未来生成器的出现而改变,在未来生成器中,你可以例如指定该人所在的位置或出现的频率。在创建提示时要牢记这一点;除了负面提示之外,还有很多方法可以解决此类问题,例如将生成的人剪掉并放置到图像中。
其他人需要使用 DreamBooth 等工具和技术进行微调,下面的第一张图是使用 Stable Diffusion/Imagine 制作的,没有任何额外训练,第二张图使用了 DreamBooth,第二张图在 吉米·威尔士 的面部方面看起来更逼真。
-
幽默的社会和历史批判艺术
-
DreamBooth 训练后
目前尚不清楚为什么某些名人使用现有模型在没有额外训练的情况下看起来不逼真,这种情况可能会随着时间的推移而改变。
它还允许使用公众人物创建视频。
这些能力触犯了某些宗教人士的敏感神经,也让政治精英担心政治艺术的民主化。
它还使历史公众人物的艺术描绘民主化,这可以用于幽默图像、更高分辨率的肖像、创新/创意组合,或用于历史场景的逼真 AI 艺术。
-
在之前被删除后,~第一个数字图像展示了艺术中的 时代错误
-
拿破仑
-
兰德尔斯汉姆森林 UFO 事件
它还可以用来创作描绘不常出现在高质量艺术作品中的人的艺术,例如特定的科学家,他们通常不是艺术和虚构作品的主题,例如“万物理论”和“奥本海默”电影除外。
-
门捷列夫
-
亚里士多德
历史场景
[edit | edit source]AI 艺术可以用来创作逼真的场景,描绘过去的样子,无论是我们根据现有知识推测的样子,还是故事中描绘的样子。后者还可能包括过去虚构故事的图像,以更直观的视觉方式展示人们对过去人物的想象。
当你想要以高分辨率可视化例如普通人经历的普通日常生活,或者创建公共领域中第一个不存在于任何封闭空间中的历史事件的图像时,是否仍然存在一些小错误可能并不重要。
使用像 DreamBoth 这样的工具,可以根据历史人物训练 AI,使其学习一组图像。下面是一些示例,这些示例可能与 费迪南德二世(费兰迪诺·达拉戈纳)在老年时的样子略有不同,根据艺术绘画来看,第一张图片是这里的艺术绘画,第二张图片是在他去世百年后绘制的。
AI 艺术生成器通常使人物看起来更好,所以正如你所看到的,它可能经常偏离人物的现有图像。但是,如果你提供更多训练数据,或者 AI 生成器在训练数据上训练得很好(对于某些目前名人来说有时是这种情况),那么人物可能看起来更逼真。
与其让文件专注于人物,不如将重点放在历史事件或历史场景上。例如,图像可以描绘中世纪一个村庄以高分辨率逼真地呈现的样子。
它还可以用来创作历史人物在逼真或不逼真环境中的高分辨率逼真图像。
正如刚才解释的那样,AI 生成器在生成面部和其他方面仍然存在问题。请记住这一点,因为纠正这些问题需要相当的技能,并且可能会限制图像的实用性或逼真度。
图像也可以完全专注于历史事件,而没有任何历史人物,无论是逼真的还是不逼真的,出现在前景中。
教育游戏
[edit | edit source]AI 艺术可以用来生成棋盘游戏的图像,例如用于卡片。这些可以是教育游戏或其他有用的游戏。请注意,在这种情况下,你应该只生成图像,而不是完整的卡片,因为例如文本将是胡言乱语。
-
教育儿童读物的风格
没有免费媒体可用的物体和主题
[edit | edit source]例如,它可以显示纸浆科幻漫画是什么样子的,或者科幻子类型是关于什么的,或者它的风格和主题是什么。它可以说明某种风格或物体是什么样子的,以及其他事情,但这需要一个免责声明,说明图像是由 AI 生成的。这种方法的一个用途是向人们展示目前缺少哪些媒体,但就概念而言,这些媒体将是有用的。
-
《发条女孩》书中世界的插画
-
儿童读物“第十三预言”
-
尤比克(类似于某些封面,并描绘了书籍的主要主题,文字乱码已修复)
对于最后一张图片,使用上面列出的文字去除工具去除文字,然后使用GIMP添加文字。
-
艺术意在描绘一个文明在现代科幻背景下采用古老的艺术风格
-
贝克辛斯基风格被采用并与其他风格合并,以a) 说明书籍内容,以及b) 将超现实破碎现实类型的菲利普·K·迪克式梦境世界描绘为超现实主义艺术的一个子类型
尤其是在没有其他或只有低质量图像可用于该概念的情况下非常有用
-
首次说明彗星上的人工制品/殖民地,在科技特征的背景下
-
一项技术创新的插画(也可以用来说明原型/模型)
-
神话生物被采用到现代科幻中,如同之前的研究中所做的那样,AI 傀儡等待着任务
-
“科学幻想”和生态城的插画,也是我首次绘制该类型的高清插画
-
几乎是首次绘制太阳朋克和可持续城市设计的插画
-
当代后启示录艺术的高分辨率插画
-
机器人外星人的概念
-
赛博朋克类型的插画,一个街景,没有例如霓虹灯,而霓虹灯存在于大多数甚至所有类似的免费媒体中,描绘了该类型
-
另一个星球上崩溃的文明的概念(该生物是人类访客,可以移除,或者是一个趋同进化的双足外星人)
-
绿色城市城市规划和太阳朋克插画
-
首次在线图书馆/影子图书馆的艺术表现
-
烹饪机器人,并且略带幽默,因此可能是烹饪机器人的最佳图像
-
相同,但不太现实,更粗糙;在许多维基百科文章中使用
-
首次说明使用计算机的具身或隐喻的AI
-
说明被隔离的具身或隐喻的AI,与人类以及人类科学+哲学互动
-
首次对吸血鬼德古拉的公共领域插画,此前同一用户的类似图像被删除
-
几乎是首次对后启示录艺术科幻类型的公共领域插画
-
(相同)
- 鼓励想象力的创意AI艺术儿童游戏
孩子们可以画画,然后使用这些画作作为img2img生成的图像输入,描述图像想要表达的内容。孩子的描述然后用于添加到素描输入的提示。这可能使孩子们能够培养他们的创造力和想象力。
可能会有一个相应的应用程序,允许语音输入,或者成年人可以帮助孩子们,孩子们先画出草图,然后成年人拍一张照片,询问草图想要表达的内容,以便AI艺术生成图像,孩子们可以完善这些图像,并将它们作为进一步图像、图像修改、反馈等的灵感来源。它降低了艺术参与所需的认知和技术最低技能水平,为孩子们提供了新颖的想象力游戏方式,尤其适合儿童。
除了更易于访问的纸牌艺术设计和其他类似的应用之外,AI艺术生成本身也可以成为游戏的一部分。这些游戏纯粹是为了娱乐,也可以提高AI艺术生成能力。
- 素描大战
多名(例如两名)玩家轮流通过更改提示或编写新提示来生成AI艺术图像。起始玩家绘制一个场景、一个生物或类似的东西。第二名玩家尝试生成一张图像,其中描绘的内容被颠倒或以另一种指定的方式改变,例如被摧毁或成功击败。玩家可以轮流进行,第一个成功完成指定意图的图像获胜该轮,或者第二个玩家可以尝试多次,最好是在第一次尝试中就成功生成图像。当提示仅更改而非完全替换时,这种方法效果最佳,这样物体就相似了,也可以指定种子保持不变。
- 概念猜测
类似于猜词游戏“禁忌”,玩家必须创造一张图像,让其他人能够快速正确地猜出他们试图描绘的概念。提示中不能使用多个指定的词语。图像只有例如三次尝试的机会,而概念并不像“树”那样简单,而是相对难以可视化。
有许多方法可以识别和解决或缓解已知问题。其中包括
- 对AI txt2txt图像生成软件的更新
- 专门针对特定目的进行调整的模型,尤其是Stable Diffusion模型,因为该软件是开源的;请参见Citivai Models
- 手动改进,通过在提示过程中或通过内绘、img2img和图像编辑软件进行改进
-
模型经常会做出基本的概念性误解,例如在提示“核蘑菇云”时将真菌与核蘑菇云混为一谈。
-
将提示的物体放入画框中,或交换图像的内容。
-
多次创建同一个人。
-
扭曲的手,重复的肢体,不真实的设备屏幕。
这些问题是否会持续存在,以及哪些问题会持续存在,目前尚不清楚,也尚未进行彻底调查。在某个时候,可能可以使用维基数据项来代替词语。例如,有人正在研究从少量图像中学习用户提供的概念(例如物体或风格),以便通过新关联的词语来包含这些概念(例如物体或风格)。