AI画图如何保持风格一致? | DALL·E 3绘图&风格一致性画图完整教学

相信开通了ChatGPT Plus用户都已经体验过DALL-E 3的AI绘图功能。体验过程中也都遇到过多次生成图片风格不一致的问题。那么如何解决DALL·E 3风格一致性的问题呢?

今天作者就来分享如何来解决这一难题,今天的文章分为三个部分:

  • 第一部分会演示DALL-E 3区别于目前其他AI绘图工具的特殊应用场景。
  • 第二部分会分享如何使用DALL-E 3生成形象一致的人物。
  • 第三部分是讲解如何使用免费的GPT3.5,配合微软new Bing图像创建器制作出更好的图片。

DALL-E 3 图片生成使用场景

场景一:图片上文字的精准把控。

AI如何对图像中特定文字生成的精准把控?目前市面上能在图像中生成指定文字的AI绘图工具寥寥无几。除了DALL-E 3,还有一个叫Ideogram的工具。作者之前写过关于Ideogram的文章,感兴趣的朋友可以去看看。

接下来我们通过几个案例来看一下如何使用DALL-E 3来完成对图片上文字的精准把控

第一个案例:生成带有对话框的漫画,并在对话框中写上指定的文字。这里我借用的是蜘蛛侠中的经典台词,能力越大责任越大。只支持英文字母的生成,如果想做中文的对话,可以考虑生成空白对话框,自行添加文字。需要注意的是你不能在需求中明确提到SpiderMan或者Peter Parker,它会拒绝生成版权相关的形象。这里生成的第一张图中的文字是完全正确的,其他三张的单词拼写都存在错误(这也是目前AI工具普遍存在的问题,利用AI完成后都需要人工校对)。

带有英文字母的图片

如果想要用别的文字,可以只生成空白对话框

作者使用到的两个Prompt是:

一张黑白的漫威风格漫画图片, 一位老人右手搭在一个青年的肩膀上, 青年在图片左侧, 老人在图片右侧, 老人的脑袋右边有个对话气泡, 对话气泡中的文字是 “With great power comes great responsibility.”

一张黑白的漫威风格漫画图片,一位老人右手搭在一个青年的肩膀上,青年在图片左侧,老人在图片右侧,老人的脑袋右边有个空白对话气泡。


第二个案例:生成带有指定文字的卡牌。这里作者借鉴的是暴雪炉石传说中的卡牌设计。DALL·E 3这几个字符生成的很清晰,但是下方的描述文本看起来就有点糊了,不过还是依稀能够看出来。我要他写的是The most accurate AI image generator(最精准的AI图像生成器)。无论是卡牌中的人物图像,卡牌边框还是整体布局,我都挺满意的。我生成了两组不同风格的卡牌,大家可以对比一下。

作者使用到的Prompt是:

A tall card reminiscent of Hearthstone’s design, bordered with an elaborate ornamental frame. The card’s core showcases a dark-haired female human magician robed in blue, casting spells that shimmer and sparkle from her hands. Her eyes, filled with intense magical energy, shine brightly. Below this mage, 'DALLE 3' is written in bold gold lettering. A description following this reads, 'The most accurate AI image generator.' On the top left corner, a crystal block contains a white number "3". The card’s bottom left features a white "3", and the bottom right corner displays a white "3".


这张卡片让人联想到炉石传说的设计,周围有一圈精致的装饰性边框。卡片的核心部分展示了一位身穿蓝色长袍、拥有黑色头发的人类女法师。她正在施放闪烁而耀眼的魔法。她的双眼充满了强烈的魔力光芒。在这位法师下方,用粗体金色字母写着“DALLE 3”。接下来的一段描述写道,“最精确的人工图像生成器。”左上角有一个水晶块,里面含有一个白色的数字“3”。卡片的左下角也有一个白色的“3”,右下角则显示了一个白色的“3”。

我要特别提一下微软bing图像创建器,它生成的样式跟原始的炉石卡牌基本一样。如果有观众想做一款自己的卡牌游戏或者实体版桌游,都可以考虑在这上面参考设计风格。


第三个案例:海报制作。第一张借鉴了乔治奥威尔1984风格的宣传海报。

第二张GTA东北游戏封面制作,在精准生成指定文字的前提下,它还对图像内容做了相关联的对应,显示的是一幅和东北这个地名相关的城市街道画面。

第三张节日海报制作,相信屏幕前肯定有从事美工或者设计这方面职业的朋友,以后做节日海报能节省很多时间了,属于是简单修改一下就能拿来直接用的程度。

第四张设计带有文字的品牌logo,这里借鉴的是汉堡王Burger Queen,这两个单词生成的都很准确。

第五张设计简笔签名,我要求他将WEI这三个字母融合到一只猫的简笔画当中,总体来说还是很满意的,可以拿来做头像或者个性签名。

场景二:生成小说或游戏作品中的角色设定原画。

它会对图像中物体的各个组成部分以及功能用途做详细的注解,当然有很多文字基本上看不清,要拿来用肯定需要自己做一些修改。

场景三:电商产品设计图

第一个案例,服装模特图片,左侧是服装设计图案,右侧是模特上身图。

第二个案例,马克杯设计图片布局跟上一个案例基本一样,基于这种图片模板,我们还可以将内容扩展到其他产品,比如手机壳、打火机这种常用而且对设计有一定要求的生活物件。

第四个应用场景:游戏贴图制作。这个案例作者在之前教大家怎样使用ChatGPT制作游戏的文章中有演示过,对于低成本小游戏的制作很有帮助。

DALL-E 3 生成风格一致性图片

接下来作者给大家分享如何使用DALL·E 3生成前后形象一致的人物。在这个过程中,作者会尝试制作一本网络小说中的剧情插图,在保持两个角色外观基本不变的前提下,改变他们出现的不同场景和互动内容。在这个环节中,我们需要用到ChatGPT的自定义指令。

点开ChatGPT网页左下角的头像,这里有个custom instructions。

第一部分是给ChatGPT提供一些需要他了解的背景信息。第二部分是给ChatGPT设定一种固定的回复格式,可以理解为前端的模型微调。在背景信息中,我告诉他,我正在为我的小说创建插图,以下是小说中的两个特定人物的名字以及他们的具体外观描述,我希望他使用这些确切描述和相同的种子编号123来创建插图,在保证角色外观不变的前提下,自行添加诸如情绪、色彩、光线和环境这些额外细节,并且总是生成四张图片,所有图片的分辨率都设定为16比9。

What would you like ChatGPT to know about you to provide better responses?(你希望ChatGPT了解哪些关于你的信息以便给出更好的回复?)

I'm creating illustrations for my novel, here are 2 characters named Iris and Justin in my novel and their description prompts.


Iris: An anime style image of a beautiful 18 years old girl with dark waist-length hair and red brown eyes, she is wearing a short white T-shirt with a indigo blue denim jacket, a black vintage jeans, and a pair of black canvas shoes, she's wearing a cross earring.


Justin: An anime style image of a handsome 18 years old boy with short gray hair and blue eyes, he is wearing a black jumper, a black sweatpants and black sneakers. He has a band-aid on his face.


我正在为我的小说制作插图,这里有我小说中两个角色的名字和他们的描述提示。


艾瑞斯:一个美丽的18岁女孩的动漫风格的形象,她有着及腰的黑发和红棕色的眼睛,穿着一件短白T恤和一件靛蓝牛仔夹克,下身是一条黑色复古牛仔裤和一双黑色帆布鞋,戴着一只十字耳环。


贾斯汀:一个英俊的18岁男孩的动漫风格的形象,他有着灰色的短发和蓝色的眼睛,穿着一件黑色的连帽衫、一条黑色的运动裤和黑色的运动鞋。他的脸上贴着创可贴。

How would you like ChatGPT to respond?(你希望ChatGPT如何回应你?)

Please create novel illustrations using this exact prompt and the same seed 123. On the premise of ensuring that the character image remains unchanged, add more details of your own, such as emotions, colors, lights and environments. Make sure to use the exact prompt given to describe the characters I have mentioned, always produce four images, the aspect ratio was set to 16:9


请使用这个确切的提示和相同的种子123来创建小说插图。在确保人物形象不变的前提下,添加更多自己的细节,比如情绪、颜色、光线和环境。务必使用给定的确切提示来描述我提到的角色,并始终生成四个图像,宽高比设置为16:9。

写好之后,勾选这个在新对话中启用的选项,保存设置,在GPT4中选择DALL-E 3。

第一个场景:Iris和Justin在咖啡馆相遇。从结果来看你会发现,它生成的每张图片虽然在细节上会有区别,但是角色的外观特征基本一致。

第二个场景:Iris和Justin一同走在街上。

第三个场景:Iris和Justin一起在厨房做饭。

到目前为止,我们的第一道工序已经完成。

接下来是第二道工序,手动为单张图像创建变体。虽然可以打字,要求ChatGPT单独修改特定的图片,但是经过我的多次验证,点开一张图片手动复制它的prompt重新去生成效果会更好。我们在之前的三个场景中分别选择一张满意的图片创建变体。

剩下的工作就是在新生成的结果中,选取最接近你个人要求的图片,最后完成整部小说中不同场景的插图制作。

在ChatGPT中使用了自定义指令的对话,在正上方标题栏的右侧会有一个感叹号图标。这种方法不能保证人物特征的百分百一致,但能够做到非常接近。你要灵活运用AI绘图的核心技巧,也就是重做。我们添加自定义指令的目的也是为了减少重做的次数。如果有感兴趣的朋友可以对我写的指令进行修改和优化,进一步提高制作效率。

GPT-3.5+bing(Copilot)生图

最后一部分我们来讲一讲怎样使用免费的GPT3.5配合微软并图像创建器New Bing(Copilot)来输出接近付费版DALL-E 3的方法。Bing图像创建器使用的模型同样是DALL-E 3,但是在使用过程中又会有一些区别。

第一,假如我们像使用ChatGPT一样样,在bing chat的聊天界面中向他发送创建图像的需求。bing的Prompt是简单地转换你的需求文本,它不会生成随机prompt并自行添加细节,并且生成的四张候选图会使用同一个提示词。微软明显在这个环节上阉割了很多功能。

第二,我们目前没办法通过对话来改变图像的比例,统一都是1024乘1024的方形图像。

第三,生成图片请选择聊天界面。聊天界面的文本输入上限是4000个字符,图像创建器的输入框有字符限制,上限大概是480个字符。

还是跟之前一样,使用ChatGPT的自定义指令。不过我对指令内容做了一些调整,并且给他提供了一条prompt示例进行参考。新建一个就第3.5对话,要求他生成描绘特定场景的Prompt。

对比我们使用GPT4生成的图片,差异肯定是存在的,而且人物的一致性保持的也不够好。微软调用的图像模型是阉割版的,但是胜在免费,而且通过多次重做也能生成效果不错的图像。


文章的结尾需要特别提醒的一个方面是,OpenAI的审查制度极其严格,尤其是针对公众人物和版权相关的内容,你没办法通过正常途径去生成很多有意思的图片。

这时候不得不感叹,开元的Stable Diffusion才是真正不可替代的东西。尤其是在这张梗图上体现的淋漓尽致。

写在最后

AI作为未来十年的生产力工具,我们要真正的把AI转换成生产力,而不仅仅是看一个热闹。作者已经分享过很多AI的干活技术,感兴趣的朋友可以关注一下。

举报