DALL-E-3 解读

最近OpenAI将自己最新的图生文模型上线到了ChatGPT应用（一度导致服务器宕机），并发布了关于DALL-E-3的论文，揭露了其效果为什么这么好的细节，或许是受到Stable AI的挑战影响，OpenAI总算是再次大方的Open了一回。总体而言，算是改进了以往文生图模型的许多缺陷，让文生图的过程朝着更符合我之前预期的方式发展了。

大家先来感受一下论文中列举的部分令人惊艳的生成效果：

在一个幻想的场景中，一只极其详细的毛茸茸的人形臭鼬站在中景中自信地摆姿势，眼神锐利，身穿动物皮夹克。艺术家巧妙地用数码艺术绘制了这个角色，捕捉到了毛发和服装纹理的复杂细节。

一幅来自图像小说的插图。在月光的照耀下，一条繁忙的城市街道。人行道上熙熙攘攘，行人享受着夜生活。在角落的摊位上，一个拥有火红头发的年轻女子穿着标志性的天鹅绒斗篷，正在与脾气暴躁的老摊贩讨价还价。这位脾气暴躁的摊贩是一个高大而有教养的男人，穿着一套利落的西装，留着一抹引人注目的小胡子，正在兴奋地用蒸汽朋克电话交谈。

古老的页面上充斥着奇幻生物、怪物和植物的素描和文字，它们散落在一本古旧的日记本上。褪色的深绿墨水讲述着魔幻冒险的故事，而高分辨率的绘画详细展现了每个生物的复杂特征。阳光透过附近的窗户，照亮这些页面，揭示出它们历久弥新的魅力。

一幅充满活力的1960年代风格海报，描绘了星际迁徙的场景，一艘复古的火箭从地球升空，飞向一个遥远而多彩的星球。大胆的排版宣告着"加入银河冒险！"，下方的小字写着"探索新世界，构建更美好的未来"。背景呈现出一个旋转的星系，其中星星和星座在交织。

一个淘气的雪貂带着顽皮的微笑，挤进一个大玻璃罐里，周围是五颜六色的糖果。这个罐子放在一个舒适的厨房的木桌上，温暖的阳光透过附近的窗户透射进来。

从生成图像的效果上看，DALL-E-3 的画面效果完全不输时下最流行的Midjourney和Stable diffusion，实际上应该可以说是超越了很多。这也再次印证了目前OpenAI在AI领域的统治地位。

然后再仔细观察这些用于生成图像的文本，可以说是非常的自然语言，非常的细节，这些是以往那些严重依赖人类提示技巧的关键词堆砌模型所不能比拟的，再结合ChatGPT的交互，还可以针对已生成的图像通过自然语言的描述进行修改，这才是真正适合普通人使用的AI绘画形式，大概AI绘画即将迎来一次新的前所未有的大爆发。接下来就让我们仔细阅读一下论文 ,看看DALL-E-3到底做了哪些工作。

总览

以往文生图模型存在的缺点：

提示跟随问题：文本到图像模型容易忽视给定标题中的词语、词序和含义。

数据集质量问题：模型训练中使用的图像和文本配对数据集质量较差，图像标题不准确和噪声较多。

可控性问题：模型生成的图像缺乏控制，无法满足特定条件或要求。

DALL-E 3针对以上问题所作的事情：

提出了一种新的解决提示跟随问题的方法，即通过生成改进的图像标题来训练文本到图像模型。通过学习一个强大的图像标题生成器，生成更详细准确的图像描述，并将这些生成标题应用于训练数据集，从而改进了模型的提示跟随能力。

解决了数据集质量问题，通过使用生成的图像标题对原始数据集进行重新配对来提高数据集的质量。这样，模型在训练过程中能够使用更准确、更详细的文本描述。

利用先进的生成建模技术和自注意力层，构建了DALL-E 3，一个新的文本到图像生成系统。这个系统可控性强，能够根据特定需求生成高质量的图像。通过性能评估，发现DALL-E 3在提示跟随、连贯性和美感等方面表现良好，与竞争对手相比具有优势。

给数据集重新生成描述

众所周知，文本生成图像的训练数据集由大量这样的文本图像对组成，但是以往的大规模数据集通常由人类作者派生而来，他们专注于简单描述图像的主题，并省略了图像中呈现的背景细节或常识关系，更糟糕的是大量的图像描述来自于互联网上的图片alt，这些alt存在着大量的错误噪音，甚至是广告和表情内容，这也对生成效果造成了极大的负面影响。并且，即便是符合图像的表述，也往往忽略很多细节，比如：

像厨房中的水槽或人行道上的停车标志这样的物体的存在以及对这些物体的描述。

场景中物体的位置和数量。

场景中物体的颜色和大小等常识细节。

图像中显示的文本。

图像打标模型

既然图像的文本标签不行，那么不如就给他重新生成一套吧，靠人力自然是不行的，那么就训练一个模型来打这个文本标签吧。

图像打标模型与传统的文本预测语言模型非常相似。因此，我们先提供对语言模型的简要描述，然后将文本字符串拆分成Token序列，。然后，通过最大化以下似然函数来构建文本的语言模型：

其中，是需要优化的图像描述生成器的参数。要将此语言模型转变为一个图像打标器，只需将其与图像进行条件约束。这里的挑战是图像由成千上万个像素值组成，直接在神经网络中使用所有这些信息作为条件非常低效，因此使用CLIP模型来提供压缩后的空间。我们将CLIP的图像嵌入过程记作： , 将其加入到概率的条件中：