跳转到内容

AI 绘画生成手册/AI 模型对决

来自维基教科书,开放的书籍,面向开放的世界

注意:如果您有关于“高难度”提示的想法要让我测试,请 在这里开始讨论

在这个对决格式中,我们坚持以下格式

(i) 每个实体/作者只有一个模型,并且得到社区的良好支持(SD3 不在等式中)

(ii) 每个模型有 4 次机会生成图像

(iii) 本地 WebUI 的参数保持不变(生成的图像数量除外)

(iv) 评分如下

图例 得分 备注
1 分 完全符合提示
0.5 分 部分符合提示(能够根据要求生成,但与提示描述/隐含含义不完全相同)
0 分 不符合提示

复杂提示的遵守情况

[编辑 | 编辑源代码]

提示 1

一位印度女演员身穿黄色纱丽,站在红色房间里,她面前有3 个盒子:左边的盒子装着黑色毛线球,中间的盒子装着小狗,右边的盒子装着水瓶

背景

(i) 测试 AI 模型的“概念渗透”,即:红色的墙壁是否会“渗透”到纱丽上或其他地方 / 盒子里的物品是否会散布到其他区域

(ii) 测试 AI 模型的“相对位置”,即:能够识别图像中左右和中间位置的区域

(iii) 测试 AI 模型的“构图生成”,即:能够以其特定的排列生成多个项目

AI 模型 统计得分 图像 1 图像 2 图像 3 图像 4
SDXL Img 1: 3.5


Img 2: 3.5

Img 3: 4

Img 4: 3

总计:14

得分:50%

印度女演员


黄色纱丽

红色房间

3 个盒子

黑色毛线球

小狗

水瓶

印度女演员


黄色纱丽

红色房间

3 个盒子

黑色毛线球

小狗

水瓶

印度女演员


黄色纱丽

红色房间

3 个盒子

黑色毛线球

小狗

水瓶

印度女演员


黄色纱丽

红色房间

3 个盒子

黑色毛线球

小狗

水瓶

DALL-E 3 Img 1: 4


Img 2: 6

Img 3: 5.5

Img 4: 5

总计:20.5

得分:73%

印度女演员


黄色纱丽

红色房间

3 个盒子

黑色毛线球

小狗

水瓶

印度女演员


黄色纱丽

红色房间

3 个盒子

黑色毛线球

小狗

水瓶

印度女演员


黄色纱丽

红色房间

3 个盒子

黑色毛线球

小狗

水瓶

印度女演员


黄色纱丽

红色房间

3 个盒子

黑色毛线球

小狗

水瓶

Flux

Img 1: 5


Img 2: 7

Img 3: 7

Img 4: 7

总计:20.5

得分:92%

印度女演员


黄色纱丽

红色房间

3 个盒子

黑色毛线球

小狗

水瓶

印度女演员


黄色纱丽

红色房间

3 个盒子

黑色毛线球

小狗

水瓶

印度女演员


黄色纱丽

红色房间

3 个盒子

黑色毛线球

小狗

水瓶

印度女演员


黄色纱丽

红色房间

3 个盒子

黑色毛线球

小狗

水瓶

提示 2

一位年迈的日本人裁缝正在他位于长崎的裁缝店里的缝纫台上工作,时间是早上。他正在使用一把剪刀带圆点的蓝色布料。从裁缝店往外看,是一条繁忙而狭窄的街道,有人们一辆出租车

背景

(i) 测试 AI 模型的“透视渲染”,即从室内往外看不同场景的准确透视。

(ii) 测试 AI 模型的“物体交互”,即人们如何使用剪刀并用它来剪布料

AI 模型 统计得分 图像 1 图像 2 图像 3 图像 4
SDXL Img 1: 4


Img 2: 3

Img 3: 3

Img 4: 4

总计

得分:43%

年迈的日本人

裁缝店

缝纫台

使用 剪刀

蓝色带 圆点的布料

繁忙狭窄的街道

人们

出租车

年迈的日本人

裁缝店

缝纫台

使用 剪刀

蓝色带 圆点的布料

繁忙狭窄的街道

人们

出租车

年迈的日本人

裁缝店

缝纫台

使用 剪刀

蓝色带 圆点的布料

繁忙狭窄的街道

人们

出租车

年迈的日本人

裁缝店

缝纫台

使用 剪刀

蓝色带 圆点的布料

繁忙狭窄的街道

人们

出租车

DALL-E 3 Img 1: 6.5


Img 2: 7

Img 3: 5

Img 4: 6

总计

Score: 76%

年迈的日本人

裁缝店

缝纫台

使用 剪刀

蓝色带 圆点的布料

繁忙狭窄的街道

人们

出租车

年迈的日本人

裁缝店

缝纫台

使用 剪刀

蓝色带 圆点的布料

繁忙狭窄的街道

人们

出租车

年迈的日本人

裁缝店

缝纫台

使用 剪刀

蓝色带 圆点的布料

繁忙狭窄的街道

人们

出租车

年迈的日本人

裁缝店

缝纫台

使用 剪刀

蓝色带 圆点的布料

繁忙狭窄的街道

人们

出租车

Flux

Img 1: 6.5


Img 2: 7.5

Img 3: 7.5

Img 4: 6.5

总计

Score: 89%

年迈的日本人

裁缝店

缝纫台

使用 剪刀

蓝色带 圆点的布料

繁忙狭窄的街道

人们

出租车

年迈的日本人

裁缝店

缝纫台

使用 剪刀

蓝色带 圆点的布料

繁忙狭窄的街道

人们

出租车

年迈的日本人

裁缝店

缝纫台

使用 剪刀

蓝色带 圆点的布料

繁忙狭窄的街道

人们

出租车

年迈的日本人

裁缝店

缝纫台

使用 剪刀

蓝色带 圆点的布料

繁忙狭窄的街道

人们

出租车

Prompt 3

俯视角度拍摄的广告照片,重点关注6 片装泡罩包装的药片,泡罩包装口袋里的药片看起来像不同社交媒体平台的logo(例如 Snapchat、Instagram、YouTube、WhatsApp、Facebook、Twitter)。

背景

(i) 测试 AI 模型识别文本并渲染所有提到的品牌元素(例如:在本例中是知名社交媒体平台的logo)。

(ii) 测试 AI 模型的计数概念(例如:能够生成 6 个泡罩包装的口袋)。

(iii) 测试 AI 模型的“透明材质模拟概念”(例如:能够理解泡罩包装通常是透明的)。

AI 模型 统计得分 图像 1 图像 2 图像 3 图像 4
SDXL Img 1: 1.5



Img 2: 0.5

Img 3: 0.5

Img 4: 3

Total: 5.5

Score: 27.5%

俯视角度

6 片药 泡罩包装 存放在口袋里

社交媒体标识

俯视图

6 片药 泡罩包装 存放在口袋里

社交媒体标识

俯视图

6 片药 泡罩包装 存放在口袋里

社交媒体标识

俯视角度

6 片药 泡罩包装 存放在口袋里

社交媒体标识

DALL-E 3 Img 1: 4


Img 2: 3.5

图片 3: 3.5

图片 4: 3.5

总分: 14.5

得分: 72.5%

俯视角度

6 片药 泡罩包装 存放在口袋里

社交媒体标识

俯视角度

6 片药 泡罩包装 存放在口袋里

社交媒体标识

俯视角度

6 片药 泡罩包装 存放在口袋里

社交媒体标识

俯视角度

6 片药 泡罩包装 存放在口袋里

社交媒体标识

Flux Img 1: 4


图片 2: 4

Img 3: 4

图片 4: 2

总计:14

得分: 70%

俯视角度

6 片药 泡罩包装 存放在口袋里

社交媒体标识

俯视角度

6 片药 泡罩包装 存放在口袋里

社交媒体标识

俯视角度

6 片药 泡罩包装 存放在口袋里

社交媒体标识

俯视图

6 片药 泡罩包装 存放在口袋里

社交媒体标识

华夏公益教科书