DALL·E2:unCLIP:Hierarchical Text-Conditional Image Generation with CLIP Latents
2204.06125v1
摘要
像CLIP这样的对比模型已经被证明可以学习同时捕获语义和风格的图像的鲁棒表示。为了利用这些表示来生成图像,我们提出了一个两阶段模型:一个先验,即给定文本标题生成CLIP图像嵌入,以及一个基于图像嵌入生成图像的解码器。我们表明,显式生成图像表示提高了图像多样性与最小的损失的照片真实性和标题相似性。我们以图像表示为条件的解码器也可以产生图像的变化,同时保持其语义和风格,同时改变图像表示中缺少的非必要细节。此外,CLIP的联合嵌入空间可以对语言引导的图像进行零镜头操作。我们对解码器使用扩散模型,并对先验模型同时使用自回归模型和扩散模型进行实验,发现后者的计算效率更高,并产生更高质量的样本。
PreviousDALL·E:Zero-Shot Text-to-Image GenerationNextDALL·E3:Improving Image Captioning with Better Use of Captions
Last updated