MS-COCO上生成图像的选定定性结果
类似地,与其他三种最先进的方法(CP-GAN、SD-GAN、和OP-GAN)对比如下。

MS-COCO对图像质量和文本对齐的人工评估,注释者从最好到最差对生成的图像进行排名(匿名和顺序随机化)
XMC-GAN 还可以很好地推广到具有挑战性的 Localized Narratives 数据集。Google之前的系统TReCS,使用鼠标轨迹输入处理本地化叙事的文本到图像生成,以提高图像生成质量。尽管没有收到鼠标轨迹注释,但 XMC-GAN 在 LN-COCO 上的图像生成方面能够显着优于 TReCS,将最先进的 FID 从 48.7 提高到 14.1。将鼠标轨迹和其他附加输入合并到端到端模型(如 XMC-GAN)中将在未来的工作中进行研究。
此外,Google还在 LN-OpenImages 上进行训练和评估,这比 MS-COCO 更具挑战性,因为数据集更大,图像涵盖更广泛的主题范围并且更复杂(平均 8.4 个对象)。据Google所知,XMC-GAN 是第一个在开放图像上训练和评估的文本到图像合成模型。XMC-GAN 能够生成高质量的结果,并在这项非常具有挑战性的任务上设定了 26.9 的强大基准 FID 分数。

Open Images 上真实生成图像的随机样本