只需一句话，AI就能定制照片级图像，谷歌在玩一种很新的扩散模型

常驻编辑科普中国 2022-11-11 模型图像标识符语义实例文本提示能力照片方法主题

更具体的说，本文方法将一个主题（例如，一只特定的狗）和相应类名（例如，狗类别）的一些图像（通常 3 - 5 张图）作为输入，并返回一个经过微调 / 个性化的文本到图像模型，该模型编码了一个引用主题的唯一标识符。然后，在推理时，可以在不同的句子中植入唯一标识符来合成不同语境中的主题。NsM拜客生活常识网

NsM拜客生活常识网

该研究的第一个任务是将主题实例植入到模型的输出域，并将主题与唯一标识符绑定。该研究提出了设计标识符的方法，此外还设计了一种监督模型微调过程的新方法。NsM拜客生活常识网

为了解决图像过拟合以及语言漂移问题，该研究还提出了一种损失（ Prior-Preservation Loss ），通过鼓励扩散模型不断生成与主题相同的类的不同实例，从而减轻模型过拟合、语言漂移等问题。NsM拜客生活常识网

为了保留图像细节，该研究发现应该对模型的超分辨率（SR）组件进行微调，本文在经过预训练的 Imagen 模型的基础上来完成。具体过程如图 4 所示，给定同一主题的 3-5 张图像，之后通过两个步骤微调文本到图像的扩散模型：NsM拜客生活常识网

NsM拜客生活常识网

稀有 token 标识符表示主题NsM拜客生活常识网

该研究将主题的所有输入图像标记为「a [identifier] [class noun]」，其中 [identifier] 是链接到主题的唯一标识符，而 [class noun] 是主题的粗略类别描述符（例如猫、狗、手表等）。该研究在句子中特别使用了类描述符，以便将类的先验与主题联系起来。NsM拜客生活常识网

效果展示NsM拜客生活常识网

下面是 Dreambooth 一个稳定扩散的实现（参考项目链接）。定性结果：训练图像来自「Textual Inversion」库：NsM拜客生活常识网