与需要同一物体的多个视图的标准NeRF不同,LOLNeRF只用一个物体的单个视图(但该类型物体的多个例子)来监督训练。
因为NeRF本身是三维的,所以模型可以从任意的视角来渲染物体。将NeRF与GLO结合起来,使其有能力从单一视图中学习跨实例的公有三维结构,同时仍然保留了重新创建数据集的特定实例的能力。
为了让NeRF正常运行,模型需要知道每张图像的确切摄像机位置,以及相对于物体的位置,但正常来说这个数据都是不可知的,除非在拍摄图像时具体测量过。

研究人员使用MediaPipe Face Mesh来从图像中提取五个landmark位置,这些二维预测的每一个点都对应于物体上的一个语义一致的点(例如,鼻尖或眼角)。
对于猫来说也是一样。

然后,我们可以为这些语义点推导出一组典型的三维位置,以及对每张图像的摄像机位置的估计,这样典型点在图像中的投影就会与二维landmark尽可能地一致。

标准的NeRF对于准确地再现图像是有效的,但在单视角情况下,往往会产生在off-axis观看时看起来很模糊的图像。
为了解决这个问题,模型中还引入了一个新的硬表面损失(hard surface loss),促使密度采用从外部到内部区域的尖锐过渡,减少模糊现象,实质上是告诉网络创建「固体」表面,而不是像云一样的半透明表面。
研究人员还通过将网络分割成独立的前景和背景网络获得了更好的结果,使用MediaPipe Selfie Segmenter的一个掩码和一个损失来监督这种分离,以促使网络specialization,可以使得前景网络只专注于感兴趣的对象,而不会被背景「分心」,从而可以提高生成质量。

在实验部分,先看一下模型在CelebA-HQ、FFHQ、AFHQ和SRN Cars数据集上训练后的可视化效果。

在量化比较部分,由于LOLNeRF是用图像重建metric来训练的,所以研究人员首先进行实验来评估训练数据集中的图像被重建的程度。

用峰值信噪比(PSNR)、结构相似度指数 峰值信噪比(PSNR)、结构相似性指数(SSIM)和学习感知图像块相似性(LPIPS)指标来比较后可以发现,LOLNeRF的指标都大幅领先。