自动文本到图像合成,其中训练模型以仅从文本描述生成图像,是一项具有挑战性的任务。它的研究为机器学习 (ML) 模型如何捕获视觉属性并将它们与文本相关联提供了丰富的见解。与指导图像创建的其他类型的输入相比,例如草图、对象蒙版或鼠标轨迹,描述性句子等,都是一种更直观、更灵活的视觉概念表达方式。因此,强大的自动文本到图像生成系统也可以成为快速内容创建的有用工具,并且可以应用于许多其他创意应用程序.
最先进的图像合成结果通常是使用生成对抗网络(GAN) 实现的,该网络训练两个模型——一个生成器,试图创建逼真的图像,以及一个鉴别器,它试图确定图像是真实的还是真实的或者捏造的。许多文本到图像生成模型是使用文本输入进行调节以生成语义相关图像的GAN 。这是非常具有挑战性的,尤其是在提供长而含糊的描述时。此外,GAN 训练容易出现模式崩溃,这是训练过程中常见的失败案例,其中生成器学习仅产生一组有限的输出,因此鉴别器无法学习识别伪造图像的鲁棒策略。为了减轻模式崩溃,一些方法使用迭代细化图像的多阶段细化网络。然而,这样的系统需要多阶段训练,这比简单的单阶段端到端模型效率低。其他努力依赖于分层方法,在最终合成逼真的图像之前首先对对象布局进行建模。这需要使用标记的分割数据,这可能很难获得。
在“文本到图像生成的跨模态对比学习”中,Google提出了跨模态对比生成对抗网络(XMC-GAN),它通过学习使用模态间(图像-文本)和模态内(图像-文本)最大化图像和文本之间的互信息来解决文本到图像的生成问题。这种方法有助于判别更稳健和判别力更强的特征,因此 XMC-GAN 即使进行单阶段训练也不太容易出现模式崩溃。重要的是,与之前的多阶段或分层方法相比,XMC-GAN 通过简单的单阶段生成实现了最先进的性能。它是端到端可训练的,只需要图像文本对(与标记分割或边界框数据相反)。
文本到图像合成
对比损失文本到图像合成系统的目标是生成清晰、逼真的场景,对其条件文本描述具有高语义保真度。为了实现这一点,Google建议最大化对应对之间的信息:
(1)带有描述场景的句子的图像(真实或生成);
(2) 生成的图像和具有相同描述的真实图像;
(3) 图像的区域(真实的或生成的)以及与之相关的单词或短语。
在 XMC-GAN 中,这是使用对比损失来强制执行的。与其他 GAN 类似,XMC-GAN 包含一个用于合成图像的生成器,以及一个被训练作为真实图像和生成图像之间的评论者的鉴别器。三组数据导致了该系统中的对比损失——真实图像、描述这些图像的文本以及根据文本描述生成的图像。生成器和鉴别器的单个损失函数是从整幅图像和全文描述计算的损失的组合,与从带有相关单词或短语的细分图像计算的损失相结合。然后,对于每批训练数据,Google计算余弦相似度每个文本描述和真实图像之间的得分,同样,每个文本描述和生成的图像批次之间的得分。目标是匹配对(文本到图像和真实图像到生成的图像)?具有高相似度得分,而不匹配对具有低得分。强制执行这样的对比损失允许鉴别器学习更健壮和鉴别性的特征。
Google提出的 XMC-GAN 文本到图像合成模型中的模态间和模态内对比学习。
Google将 XMC-GAN 应用于三个具有挑战性的数据集——第一个是MS-COCO 图像的MS-COCO描述集合,另外两个是用Localized Narratives注释的数据集,其中一个涵盖了 MS-COCO 图像(Google称之为LN-COCO) 和另一个描述开放图像数据 (LN-OpenImages)。Google发现 XMC-GAN 在每个方面都达到了最先进的水平。XMC-GAN 生成的图像描绘的场景比使用其他技术生成的图像质量更高。在 MS-COCO 上,XMC-GAN 将最先进的Fréchet 初始距离(FID) 分数从 24.7 提高到 9.3,并且非常受人类评估者的青睐。