人工智能艺术生成手册/人工智能艺术生成的局限性
截至目前,人工智能艺术生成模型可能存在局限性,包括最新的 FLUX 1.0-DEV。
我的局限性标准是,如果人工智能艺术无法在 75% 的时间内(4 张图像中的 3 张)生成。
否 | 图像 | 描述 |
---|---|---|
1 | 人体解剖 人体解剖一直是人工智能艺术生成的笑柄,大部分问题都集中在手/手指上。
(i) 该女性有 3 只手。 (ii) 该女性有 2 个肚脐。 (iii) 该女性右手的指尖接触到岩石,有 6 根手指。 (iv) 该女性右腿的脚后跟看起来变形了。
| |
2 | 文本渲染拼写 图像文本提示的一部分实际上是 DALL-E2 中的 | |
3 | 相对定位 图片最初的提示是
| |
4 | 物体计数 最初,这幅 SDXL 图像的提示是 | |
5 | 一些设计模式 AI 模型可能拥有或可能没有足够的数据/元数据来训练某些类型的服装设计模式。
其他已知的罪魁祸首 (a) 人字形 (b) 狗牙纹 (c) 涡卷形 (d) 波斯花纹 请在此处查看更多内容: 人工智能艺术生成手册/VACT/织物图案 | |
6 | 主体与其他主体/物体的互动
AI 模型无法生成许多日常行为,例如“ | |
7 | 文化翻译丢失 在训练期间,许多无形的文化/遗产在 AI 模型训练期间被忽视(假设),因为它严重依赖于 CLIP 进行自动标记,但不幸的是,它更偏向于西方亚文化,忽略了许多非西方国家的亚文化。 例如,右边的图片应该生成一个穿着 巴德拉(北非舞蹈服)的女士,但它却生成了一种萝莉类型的连衣裙。
例如,它无法识别 (i) 巴德拉服饰 来自北非地区 (ii) 卡巴雅服饰 来自东南亚 | |
8 | 无法生成许多神话生物 许多人工智能图像模型无法生成任何神话生物,例如 但令人惊讶的是,一些神话生物(似乎在 SDXL 中得到了解决),例如 牛头人 | |
9 | 概念渗透 有一些概念非常强大,以至于它们“渗透”到其他主题中。
例如,这幅图像提示的意图是 拟人化的犀牛正在修补 戴珍珠耳环的少女(但以人形出现) 的画作。
| |
10 | 对代表性不足的主题的训练数据有限
在绘画的语境中,我们可能知道更受欢迎的画作,例如 蒙娜丽莎 或 神奈川冲浪里,但我们可能不知道 "The Self Portrait of Mocker" 等画作的名称。 (除了 2000 年代后期互联网上的 "古典艺术男子指点" 模因)。 . 例如,这幅图像的提示是 | |
11 | 无法理解否定
到目前为止,许多人工智能图像模型都无法理解 否定(表示不存在)。例如,在这幅图像中,提示是
然而,提示无法理解否定,仍然生成一个长着胡子的女性。 | |
12 | 抽象组合
在本例中,将现实世界中很少见到的概念组合在一起(比如企鹅和竹子)可能在训练数据中没有得到很好的体现,导致模型可能难以准确地生成它们。
| |
13 | 图像训练数据集的多样性
提示是 请查看此新闻链接以获取更详细的见解。 https://www.theverge.com/2024/4/3/24120029/instagram-meta-ai-sticker-generator-asian-people-racism | |
14 | 语义理解
有时,人工智能也很难理解英语的一些细微差别;语义。 例如,在这种情况下,spring指的是“水泉”,而不是“弹簧”,尽管在字面上来说是正确的。 | |
15 | 潜在的宣传工具 不怀好意的人可能会滥用人工智能艺术生成技术,为自己的利益生成宣传图像。 例如,这些图像是由必应图像创建者 (BIC) 在大过滤器清理之前生成的(大约 2023 年 9 月),当时必应图像创建者能够生成这些提示的图像。
|
对于人工智能艺术生成,从白皮书来看,每个人工智能艺术生成系统都使用自己的数据集进行训练。
例如:OpenAI 的 DALL-E 使用 Image-GPT 训练,而 Stable Diffusion 使用 Common Crawl 和 Laion-5B (但据信并非所有 50 亿张图片都参与了训练)。据信 SDXL 使用 Laion-Aesthetic 训练。 https://github.com/google-research-datasets/conceptual-12m
正如俗语所说,“垃圾进,垃圾出”,这意味着如果训练图像(输入)没有经过适当的整理,输出图像可能也会出现乱码。这是一个鲜为人知的问题,但随着时间的推移,人工智能图像模型本身也得到了微调,生成的图像质量随着时间的推移而不断提高。但总的来说,许多局限性是由于图像存在以下问题:
(i) 许多低分辨率图片 [小于 512*512 像素,模糊(但并非为了美学目的)]
(ii) 与图像相关的错误/误导性标题
(iii) 图像标题不完整
(iv) 图像数据库严重偏向于图像中的西方语境
(v) 缺少某些图像/主题
为了解决许多局限性,需要更多整理(但成本高昂)来整理输入图像,至少要达到 Open-AI Dall-E 的标准(至少在 2022 年版本中)