人工智能增强的艺术家。图片由作者使用 ChatGPT & DALL-E 3 生成。
“如果你想让你的孩子聪明,就给他们读童话故事。如果你想让他们变得更聪明,就给他们读更多的童话故事。” 艾尔伯特.爱因斯坦
作为一名父亲,我一直梦想着为我的孩子们创作绘本。
我希望这些书能以一种有趣的方式教给我的孩子重要和有价值的东西。
但我的问题是:我是一个糟糕的设计师。我无法创作插图。我画画是小朋友水平。
如果没有好的插图,制作这些书就只是一个梦想。
但到了九月底,事情发生了变化……
我看见 OpenAI 将 DALL-E 3 集成到 ChatGPT 中的预告片。这启发我思考:
“我能用 DALL-E 3 创建前后一致的角色吗?”
出色且前后一致的插图是我创作儿童读物时所欠缺的部分。
我有很多技能和兴趣,这将使我的书非常适合孩子们:
·我喜欢写作。
·我喜欢教学。
·我知道孩子们如何学得最好。
·我使用人工智能工具来提高我的创造力。
·我学会了如何培养聪明的孩子。
但还有更多。我不信任教育体系。
这意味着我不会仅仅依靠学校来做孩子的教育。教育体系已经过时,是为工厂工人设计的。它跟不上快速变化的世界。另外,学校:
·很无聊,
·降低好奇心和创造力,
·扼杀了对学习的天然热爱,
·小组教学,虽然效率不高,
·不要挑战聪明的孩子并减慢他们的进步。
我可以继续说下去,但这足以表达我的观点。
10 月 13 日,我终于在 ChatGPT 中访问到了 DALL-E 3。
我写这篇文章是因为(剧透!)我设法创造出了前后一致的角色。
所以,我找到了我缺失的部分。我将致力于为我的孩子们创作绘本。另外,我会教其他父母如何做同样的事情,因为他们也想要这样做!
我怎么知道的?我在 YouTube 上问的:
我的视频中关于与 DALL-E 3 前后一致的角色的评论。
在我们开始阅读指南之前,我需要您了解以下内容:
警告:ChatGPT 随着时间的推移而变化。不可能做出一个关于如何使用 DALL-E 和 ChatGPT 创建细致入微且详细的图像(例如前后一致的角色)的“常青”指南。但我提供的是撰写本文时(2023 年 11 月)的最新信息。
现在,让我们转向指南!
导读
我将本文的实际部分分为 3 段:
1.种子。
2.描述。
3.风格。
种子
种子是我们为随机性设置的数字。更准确地说,我们将其设置为随机环境中的可复现性。
在计算机科学中,随机性并不完全随机。
假设您编写了一个 Python 脚本来生成 10 个 1-100 范围内的随机数。因而,您希望每次运行该函数时数字都会不同。
仅当您不使用我们的种子时,这才是对的。但是,如果您为种子分配一个常量值,例如 21,则每次运行函数时,函数都会以相同的顺序生成相同的 10 个数字。
让我们使用这个例子:
import random
# Set seed for reproducibility
random.seed(21)
# Generate 10 random numbers in the range 1-100
random_numbers10 = [random.randint(1, 100) for _ inrange(10)]
print(random_numbers10)
尽管您使用该random函数,但您始终会获得[22, 54, 89, 54, 82, 37, 62, 28, 61, 66]输出。注:不信你可以测试一下。
这很重要,因为恒定的种子数会将我们的“随机”脚本变成确定性脚本。
这还不是全部。
让我们稍微修改一下代码,生成另外 2 组长度分别为 5 和 20 的数字。
import random
random.seed(21)
random_numbers5 = [random.randint(1, 100) for _ inrange(5)]
print(random_numbers5)
random.seed(21)
random_numbers10 = [random.randint(1, 100) for _ inrange(10)]
print(random_numbers10)
random.seed(21)
random_numbers20 = [random.randint(1, 100) for _ inrange(20)]
print(random_numbers20)
结果如下:
·rundom_numbers5-[22, 54, 89, 54, 82]
·rundom_numbers10-[22, 54, 89, 54, 82, 37, 62, 28, 61, 66]
·rundom_numbers20-[22, 54, 89, 54, 82, 37, 62, 28, 61, 66, 24, 65, 68, 31, 1, 2, 48, 75, 55, 9]
你能看到这里的模式吗?
不仅数字总是相同。较短范围是较长范围的子范围。
“老兄,这篇文章不是应该是关于 DALL-E 3 的吗?”
我很高兴你问了!
同样的原理也适用于文本到图像模型,例如 DALL-E 3。
我对计算机科学种子的冗长介绍对于 DALL-E 3 有 2 个倾向:
·如果您使用相同的提示和相同的种子,DALL-E 3 每次都会生成相同的图像
·如果您稍微更改提示但保留相同的种子,DALL-E 3 应该会生成类似的图像。
最后,如果您写了几个 DALL-E 3 提示并且:
·提供角色的详细描述,
·设置相同的种子,
·改变“动作”部分,
...你应该获得一致的角色!
那么让我们尝试一下吧!
描述
为了说明我的观点,我写了 4 个几乎相同的提示。
另外,我确保 ChatGPT 将使用一致的种子。这是完整的提示:
请生成同一只狮子的 4 张图像,并在所有图像中保持一致。
对每个图像使用种子 3508870840。使用以下提示:
1.“ 照片中,一头快乐的狮子,有金色的鬃毛、明亮的蓝眼睛和宽阔、友善的微笑,坐着”
2.“ 照片中,一头快乐的狮子,有金色的鬃毛、明亮的蓝眼睛和宽阔、友善的微笑,在睡觉”
3.“ 照片中,一头快乐的狮子,有金色的鬃毛、明亮的蓝眼睛和宽阔、友善的微笑,在奔跑”
4.“ 照片中,一头快乐的狮子,有金色的鬃毛、明亮的蓝眼睛和宽阔、友善的微笑,在吃东西”
Please generate 4 images of the same lion that remain consistent across all images.
Use Seed 3508870840 for every single image. Use the following prompts:
1. "Photo of a cheerful lion with a golden mane, bright blue eyes,
and a wide, friendly smile, sitting."
2. "Photo of a cheerful lion with a golden mane, bright blue eyes,
and a wide, friendly smile, sleeping."
3. "Photo of a cheerful lion with a golden mane, bright blue eyes,
and a wide, friendly smile, running."
4. "Photo of a cheerful lion with a golden mane, bright blue eyes,
and a wide, friendly smile, eating."
以下是初步结果:
狮子有 4 种不同的动作。
我不了解你,但我爱他们。
快速提示:描述性越强,DALL-E 的创造力空间就越小。在第四个例子中,我只说“吃”,而没有提及狮子在吃什么。当我玩不同的种子或风格时(稍后解释),狮子总是吃别的东西。
狮子是完全相同的吗?不,
它们看起来一致吗?绝对的!
但是,让我们进一步分解一下。
风格
为了获得一致的图像,您需要保持相同的风格。
如果您仅描述一个角色,ChatGPT 可能会采用该描述,但应用不同的样式。看这个例子:
长颈鹿的描述相同,但风格不同。
描述是相同的,但我可爱的长颈鹿生成为:
·照片
·插图
·矢量图
·卡通
因此,您不能指望真正的一致性。
但知道风格很重要,您可以在风格之间快速切换。让我们看看我们用来生成狮子的提示。请注意,它们都以“照片”开头。
如果我们把提示“照片”改为“卡通”会怎么样?
所以,在拿到狮子的照片后,我接着说:
对于每个提示,将“照片”更改为“卡通”,并保留种子。
For each prompt, change "Photo" to "Cartoon", and keep the seed.
这就是我得到的:
图中狮子有同样的4个动作
令人印象深刻,对吧?
我只是改变了风格,得到了4只一致且相似的狮子!
这是一个非常方便的功能,您只需跟进对话即可!
总结本指南...
为了获得一致的字符,您需要使用:
1.相同的种子。
2.相同的角色描述。
3.相同的风格。
你可以尝试不同的姿势、动作等。
彩蛋部分
官方指南到这里就结束了,但我想分享一些想法。
MidJourney 也会这样吗?
我不是来比较 DALL-E 3 和 MidJourney 的。
但我需要说这一点。我喜欢在 ChatGPT 中使用 DALL-E 3,因为我可以像人类一样说话。为了有效地使用 MidJourney,您需要学习 MidJourney 理解的特定“语言”。
使用 ChatGPT 中的 DALL-E 3,您只需说英语即可。
我的天啊!在写前一句时,我必须检测我说波兰语时得到的结果,我的母语。
看这个:
用波兰语与 ChatGPT 交谈
这样,我告诉 ChatGPT 在不同情况下再生成 4 个具有同一只狮子的卡通。
ChatGPT 理解了我的指令,又生成了 4 个提示,并用英语将它们传递给了 DALL-E 3。
我太激动了!
我在本节的开头写道,DALL-E 3 非常棒,因为您可以用简单的英语与它交谈。我刚刚意识到您可以用简单的<您的语言>与 DALL-E 3 交谈。
在你面前,MidJourney!(对不起,MidJourney。我也爱你。但这个认识让我大吃一惊。)
这对每个人来说都是个好消息,尤其是对于技术水平较低的人来说。
局限性
尽管结果令人印象深刻,但 DALL-E 3 仍面临以下问题:
·爪子——不仅不一致。通常,它们看起来不像狮子的爪子。
·牙齿——有时它们看起来更像人类,而不是狮子。
·缺少零件——有时 DALL-E 会忘记爪子或其他东西。
另外,请注意睡狮的鼻子是蓝色的。这很有趣,也很难预测为什么会发生这种情况。我怀疑是因为闭着眼睛的缘故。在提示中,我使用“明亮的蓝眼睛”。但眼睛是闭着的,所以也许 DALL-E 需要将蓝色部分移到其他地方。
结论
就是这样!
我已经使用 DALL-E 3 三周了,我一直很喜欢它!
作为父亲,我有很多想法如何使用它,让我的孩子们玩得开心!我女儿很喜欢 DALL-E 为她生成的万圣节贴纸!
您想用 DALL-E 3 创建什么?请在评论中告诉我吧✍️
网友评论