相比之下,现有的利用GANs的方法通过判别器监督像素间的关系,极大地限制了模型在图像分辨率的伸缩能力。
GLO+NeRF打破多视角需求
GANs过去一直是图像生成的标准模型,其成功可以归因为两点:
1、解决了困难的鞍点优化问题,可以解释为生成器和判别器之间的对抗博弈;
2、将生成器和判别器参数化为深度卷积神经网络。
2019年,研究人员提出Generative Latent Optimization(GLO),使用简单的重建损失来训练深度卷积生成器,可以合成视觉上吸引人的样本、在样本之间进行平均插值,并对噪声向量进行线性运算。
最重要的是:这些效果的实现都不需要对抗优化方案。

论文链接:https://arxiv.org/pdf/1707.05776.pdf
NeRF需要多视角数据不就是为了对抗性训练吗?
如果GLO无需对抗训练即可实现GAN,那二者结合起来,岂不就是不需要多视角的NeRF!
GLO是一种通用的方法,通过共同学习解码器神经网络和潜码表来学习重建一个数据集(如一组二维图像),该编码表也是解码器的输入。
每一个潜码都从数据集中重新创建了一个单一的元素(如图像)。由于潜伏代码的维度少于数据元素本身,网络需要对数据进行泛化,学习数据中的共同结构(如狗鼻子的一般形状)。
NeRF是一种非常善于从二维图像重建静态三维物体的技术。它用一个神经网络表示一个物体,为三维空间中的每个点输出颜色和密度。颜色和密度值是沿着射线积累的,二维图像中的每个像素都有一条射线。然后使用标准的计算机图形体积渲染将这些值结合起来,计算出最终的像素颜色。
重要的是,所有这些操作都是可微的,可以进行端到端的监督训练。通过强制要求每个渲染的像素(三维)与基准(二维)像素的颜色相匹配,神经网络可以创建一个从任何视角渲染的三维。
将NeRF与GLO结合起来,给每个物体分配一个潜码,与标准的NeRF输入相连接,使其有能力重建多个物体。

在GLO之后,研究人员在训练期间将这些潜码与网络权重共同优化以重建输入图像。