跳转到内容

人工智能艺术生成手册/人工智能艺术生成的局限性

来自维基教科书,开放书籍,面向开放世界

截至目前,人工智能艺术生成模型可能存在局限性,包括最新的 FLUX 1.0-DEV。

我的局限性标准是,如果人工智能艺术无法在 75% 的时间内(4 张图像中的 3 张)生成。

图像 描述
1 人体解剖

人体解剖一直是人工智能艺术生成的笑柄,大部分问题都集中在手/手指上。


如下所示,这幅人工智能生成的女性图像有一些缺陷。

(i) 该女性有 3 只手。

(ii) 该女性有 2 个肚脐。

(iii) 该女性右手的指尖接触到岩石,有 6 根手指。

(iv) 该女性右腿的脚后跟看起来变形了。


注意:这可以通过使用 ControlNet 和最新的 AI 模型 (FLUX 1.0) 来解决。

2
DALL·E2 - Javan rhinoceros wearing a business suit and safety hard hats , holding a Under Construction signboard with background of construction area
DALL·E2 - 穿着西装和安全帽的爪哇犀牛,拿着一个“正在建设”的告示牌,背景是建筑工地。
文本渲染拼写

图像文本提示的一部分实际上是 DALL-E2 中的 "UNDER CONSTRUCTIONS"(2023 年 9 月提示),但在大多数情况下显示为乱码(不遵循任何已知的英语单词),至少对于英语母语人士来说可能如此。然而,文本渲染随着 IF-Deepfloyd、DALL-E3(截至 2024 年 3 月)和 FLUX 1.0(2024 年 9 月)等模型的出现而逐渐得到改进。

3 相对定位

图片最初的提示是 黄色球体在左边,紫色金字塔在右边 但如你所见,相对定位完全错误,金字塔在左边,球体在右边。


随着 FLUX 1.0 等更新 AI 模型的发布,相对定位正在逐渐得到改进,这些模型能够在大多数情况下生成具有正确相对定位的图像。

4 物体计数

最初,这幅 SDXL 图像的提示是 三只兔子。(2023 年 12 月)。然而,可能是由于训练数据集没有指定图片中出现的物体数量,人工智能艺术生成在人工智能艺术生成过程中可能经常会出现生成错误物体数量的问题。

5 一些设计模式

AI 模型可能拥有或可能没有足够的数据/元数据来训练某些类型的服装设计模式。


例如,提示是生成运动文胸的 之字形 设计,但不幸的是,AI 模型无法在大多数随机生成的图片中生成这种设计。

其他已知的罪魁祸首

(a) 人字形

(b) 狗牙纹

(c) 涡卷形

(d) 波斯花纹

请在此处查看更多内容: 人工智能艺术生成手册/VACT/织物图案

6 主体与其他主体/物体的互动

AI 模型无法生成许多日常行为,例如“用弩瞄准”、“测量腰围”、“用剪刀剪布料”(2024 年 9 月)。目前,它还远不完美。

7 文化翻译丢失

在训练期间,许多无形的文化/遗产在 AI 模型训练期间被忽视(假设),因为它严重依赖于 CLIP 进行自动标记,但不幸的是,它更偏向于西方亚文化,忽略了许多非西方国家的亚文化。 例如,右边的图片应该生成一个穿着 巴德拉(北非舞蹈服)的女士,但它却生成了一种萝莉类型的连衣裙。


例如,它无法识别 

(i) 巴德拉服饰 来自北非地区

(ii) 卡巴雅服饰 来自东南亚

8 无法生成许多神话生物

许多人工智能图像模型无法生成任何神话生物,例如
(i) 独眼巨人(有时会生成这种类型的版权 独眼巨人)。
(ii) 半人马(它通常会以笨拙的方式生成骑马的人)。
(iii) 飞马(它会生成一匹没有翅膀的白马)。
(iv) 美杜莎(它会生成一个戴着王冠的中年白人女性,没有著名的蛇发)。
(v) 九头蛇(它会生成 名为九头蛇的岛镇周围环境)。
(vi) 冥府三头犬(它会生成一只只有一头的德国牧羊犬的图像)。
(vii) 海怪(它会生成克苏鲁类型的怪物)。
(viii) 木乃伊(它会生成一个中年埃及女性的图像)。
(ix) 凤凰(它会生成 凤凰城,亚利桑那州 的一个区域)。
(x) 斯芬克斯(它只是生成埃及狮身人面像的建筑)。

但令人惊讶的是,一些神话生物(似乎在 SDXL 中得到了解决),例如 

牛头人
霜巨人
阿努比斯

9 概念渗透

有一些概念非常强大,以至于它们“渗透”到其他主题中。 例如,这幅图像提示的意图是 拟人化的犀牛正在修补 戴珍珠耳环的少女(但以人形出现) 的画作 穿着西装的拟人化犀牛用刷子修补戴珍珠耳环的少女的画作。
有时,更改词序可能会成功地提高图像符合你意图的可能性: 在此处查看更多示例

10 对代表性不足的主题的训练数据有限

在绘画的语境中,我们可能知道更受欢迎的画作,例如 蒙娜丽莎神奈川冲浪里,但我们可能不知道 "The Self Portrait of Mocker" 等画作的名称。 (除了 2000 年代后期互联网上的 "古典艺术男子指点" 模因)。 .

例如,这幅图像的提示是 "由画家约瑟夫·杜克鲁创作的《自画像嘲弄者》的油画,画作的主题正在与智能手机通话",但生成的图像与原作完全不相似。 因此,“数据策展人”可能需要策展更多代表性不足的主题。 .

11 无法理解否定

到目前为止,许多人工智能图像模型都无法理解 否定(表示不存在)。例如,在这幅图像中,提示是

女性超级明星模特没有胡子

然而,提示无法理解否定,仍然生成一个长着胡子的女性。

12 抽象组合

在本例中,将现实世界中很少见到的概念组合在一起(比如企鹅和竹子)可能在训练数据中没有得到很好的体现,导致模型可能难以准确地生成它们。


此示例中的提示是 

Tux(Linux 吉祥物)是用竹子做成的。

13 图像训练数据集的多样性

提示是 亚洲男性的库存照片,带有白人女性 虽然人工智能艺术能够生成非常逼真的看起来像人的图像,但它无法生成各种种族的人(例如,图片无法生成白人女性,尽管提示中要求这样做)。这可能是由于训练的数据集缺乏这些特征,或者文本编码器还没有功能完善。

请查看此新闻链接以获取更详细的见解。 https://www.theverge.com/2024/4/3/24120029/instagram-meta-ai-sticker-generator-asian-people-racism

14 语义理解

有时,人工智能也很难理解英语的一些细微差别;语义。

例如,在这种情况下,spring指的是“水泉”,而不是“弹簧”,尽管在字面上来说是正确的。

15 潜在的宣传工具

不怀好意的人可能会滥用人工智能艺术生成技术,为自己的利益生成宣传图像。 例如,这些图像是由必应图像创建者 (BIC) 在大过滤器清理之前生成的(大约 2023 年 9 月),当时必应图像创建者能够生成这些提示的图像。

两个 ISIS 恐怖分子正在阿富汗沙漠中插下 ISIS 旗帜,当时没有任何阻碍。

训练图像数据集问题

[编辑 | 编辑源代码]

对于人工智能艺术生成,从白皮书来看,每个人工智能艺术生成系统都使用自己的数据集进行训练。

例如:OpenAI 的 DALL-E 使用 Image-GPT 训练,而 Stable Diffusion 使用 Common CrawlLaion-5B (但据信并非所有 50 亿张图片都参与了训练)。据信 SDXL 使用 Laion-Aesthetic 训练。 https://github.com/google-research-datasets/conceptual-12m


正如俗语所说,“垃圾进,垃圾出”,这意味着如果训练图像(输入)没有经过适当的整理,输出图像可能也会出现乱码。这是一个鲜为人知的问题,但随着时间的推移,人工智能图像模型本身也得到了微调,生成的图像质量随着时间的推移而不断提高。但总的来说,许多局限性是由于图像存在以下问题:

(i) 许多低分辨率图片 [小于 512*512 像素,模糊(但并非为了美学目的)]

(ii) 与图像相关的错误/误导性标题

(iii) 图像标题不完整

(iv) 图像数据库严重偏向于图像中的西方语境

(v) 缺少某些图像/主题


为了解决许多局限性,需要更多整理(但成本高昂)来整理输入图像,至少要达到 Open-AI Dall-E 的标准(至少在 2022 年版本中)

华夏公益教科书