AI画图|DALL.E:OpenAI画图,文生图[疯语咒AI]

DALL-E介绍

DALL-E是一个可以通过文本描述中生成图像的人工智能模型。于2021年1月5日由OpenAI发布。

OpenAI创造的DALL·E图像生成器，能够直接通过文本描述生成类似超现实主义的图像，让机器也能拥有顶级画家、设计师的创造力。DALL·E的名字是为了向艺术家萨尔瓦多·达利和皮克斯的机器人WALL-E致敬。

先感受一下DALL·E生成图像，输入文本”牛油果形状的扶手椅。仿梨型的扶手椅。”DALL·E果然生成了类似超现实主义的图片，像真实存在的一样。

DALL-E通过120亿参数版本的GPT-3 Transformer模型来理解自然语言输入（例如“五边形形状的绿色皮革钱包”或“一只悲伤水豚的等距视图”）并生成相应的图片。[2]它既可以生成现实的对象（例如“带有蓝色草莓图像的彩色玻璃窗”），也能够生成现实中不存在的对象（例如“具有豪猪纹理的立方体”）。它的名字是2008年动画电影WALL-E（瓦力）和20世纪西班牙加泰隆尼亚画家萨尔瓦多·达利（Salvador Dalí）之混成词。

自2000年代以来，已有其他许多神经网络有生成逼真图像的能力。而DALL-E的特点在于它能够通过纯文本描述生成这样逼真的图像。

OpenAI尚未发布DALL-E模型的源代码，不过OpenAI在其网站上提供了DALL-E演示，可以查看部分文本描述的输出图像。除了官方版本的DALL-E，另有DALL-E Mini等其他人发布的以少量数据训练的开源替代方案。

DALL-E生成的一系列长颈鹿与龙的嵌合体图像

DALL-E 历史

DALL-E模型最初于2021年1月5日由OpenAI发布。

2022年4月，OpenAI宣布了新版本的DALL-E 2，声称它可以从文本描述中生成照片般逼真的图像，另外还有一个允许对输出进行简单修改的编辑器。根据OpenAI的公告，该程序仍处于研究阶段，访问权限仅限于小部分测试版用户。该模型有时仍会犯一些人类不会犯的严重错误。OpenAI称DALL-E 2是一个“可以从文本描述中生成原创、逼真的图像和艺术”的模型。

CLIP模型

DALL-E是与CLIP（Contrastive Language-Image Pre-training，对比图文预训练）模型一起开发并向公众发布的。CLIP是一个单独的模型，其作用是理解输出图像并为其打分。DALL-E生成的图像由CLIP模型进行筛选，以呈现最高质量的图像。

DALL-E架构

GPT模型最初由OpenAI于2018年开发，其使用了Transformer架构。第二版的GPT-2于2019年发布。2020年又再次扩大规模发布了拥有1750亿个参数的GPT-3。

DALL-E模型是GPT-3的多模态实现，共拥有120亿个参数，使用从网络上收集的文本和图像对进行训练。它使用零样本学习从描述和提示中生成输出，而无需进一步训练。

DALL-E会根据提示生成多个图像，之后由CLIP模型对这些图像进行排序。CLIP模型使用了超过4亿对图像和文本进行训练。该模型是一个图像识别系统[，它的训练集是从网络上抓取的图像与描述，而不是诸如ImageNet之类的经过整理的标记图像数据集。CLIP将图像与所有文本相关联。它能够预测哪个文本（从32768个随机采样的文本中选择）最适合图像，使其在之后有能力识别不在其训练集之中的图像中的对象

DALL-E表现

DALL-E 2创造的穿着贝雷帽和高领毛衣的柴犬

DALL-E能够生成各种风格的图像，从照相写实主义图像[1]到绘画和表情符号。它还可以“操纵和重新排列”图像中的对象。其创作者指出DALL-E的一项能力是在没有明确指示的情况下将设计元素正确放置在新颖的作品中：“例如，当被要求画一个白萝卜擤鼻涕、喝拿铁或骑独轮车时，DALL-E通常能在合理的位置画出手帕、手和脚。”

DALL-E展现了多种能力。《Input》、NBC、《自然》等的报道文章中都提到了DALL-E生成的“穿着芭蕾舞裙遛狗的小白萝卜插图”。而它生成的“鳄梨形状的扶手椅”也同样受到关注。另一方面，DALL-E还展现出了足以解决瑞文氏标准推理测验（通常用于测量人类智力的视觉测试）的视觉推理技能。

剑桥大学机器学习教授尼尔·劳伦斯（Neil Lawrence）认为DALL-E这类模型有能力存储关于我们这个世界的信息，并以人类认为非常自然的方式进行推广。佐治亚理工学院交互计算学院副教授马克·里德尔（Mark Riedl）则认为DALL-E的演示结果表明它能够协调地融合概念，这是人类创造力的关键要素，同时他指出DALL-E绘制的插图比过去几年其他的Text2Image（由文本生成图像）系统要出色许多。

DALL-E模型在没有特定提示的情况下也能够推断合适细节的能力也受到了关注。技术博客ExtremeTech注意到，DALL-E绘制的“穿着圣诞毛衣的企鹅”不仅会生成企鹅穿着毛衣的图像，而且还会生成与主题相关的圣诞老人帽。另一个技术博客Engadget则注意到模型生成的“一幅一只狐狸冬天坐在田野里的画”中出现了适当放置的阴影。此外，DALL-E展示了对视觉和设计趋势的广泛理解。例如，DALL-E可以绘制指定年代的手机或吸尘器的照片，它了解这些物体的形态是如何随时间改变的。

DALL-E 3

目前OpenAI的DALL-E模型版本最新的是DALL-E 3，9月21号OpenAI 在官网上线了 DALL·E 3 的介绍页面，它是一款新的文生图模型，可以根据文本提示词生成各种风格的高质量图像。DALL·E 3 的上一代是去年 4 月份推出的 DALL·E 2，出现时同样因为强大的图像生成能力引起过广泛关注。时隔一年半，新推的 DALL·E 3 有哪些方面的提升？与 Midjourney、Stable Diffusion 等 AI 绘画工具相比又有哪些不同？

DALL·E 3 介绍页面： https://openai.com/dall-e-3

据官方介绍，DALL·E 3 可以生成完全符合提示词的图像，并能理解更多的细微差别和细节，让用户能轻松地根据自己的想法生成准确的图像。下面是官方给出的对比图，在同一组提示词下，DALL·E 3 在图像质量和细节呈现上的表现比 DALL·E 2 更好。

我用 DALL·E 3 官网图像的提示词在 midjourney v5.2 和 Stable Diffusion XL 1.0 中生成了几组图像，通过对比可以看出 DALL·E 3 能很好地理解“治疗师，一个勺子”“闭着眼睛高兴地咬了几口”这样的自然语言，并准确呈现出对应的形象细节，还能正确地生成“I just feel so empty inside”这样的文本内容，而 Midjourney 和 Stable Diffusion 还无法达到同样的效果。

在处理更长更复杂的提示词时，DALL·E 3 可以在画面中完整呈现提示词中的各类元素和特征，比如海鸥、绿光、旋转的云、带有图案的地毯，而 Midjourney 和 Stable Diffusion 则会遗漏掉部分细节特征。

除了强大的图像生成能力，DALL·E 3 另一个备受瞩目的点是它可以配合 ChatGPT 使用。

官网上有一段 DALL·E 3 in ChatGPT 的演示视频，视频中当用户提出一段想法时，ChatGPT 会自动生成非常详细的提示词，并调用 DALL·E 3 生成的准确图像；用户还可以直接发送文字指示，让 ChatGPT 对图像进行修改。整个过程中，ChatGPT 能提供无限的灵感和创意，DALL·E 3 可以快速将用户的想法具象化呈现，流畅的配合让一个故事的诞生变得轻松自然，这种新的图像生成体验更是让人眼前一亮。