无需多视图！Google重磅升级NeRF：仅需一张平面图即可生成3D模型

常驻编辑科普中国 2022-09-22 视图模型神经网络平面图重磅研究人员物体视角像素图像数据网络

任意尺寸的图像进行训练，而不会在训练过程中增加内存使用量。

mor拜客生活常识网

相比之下，现有的利用GANs的方法通过判别器监督像素间的关系，极大地限制了模型在图像分辨率的伸缩能力。mor拜客生活常识网

mor拜客生活常识网

GLO+NeRF打破多视角需求

GANs过去一直是图像生成的标准模型，其成功可以归因为两点：mor拜客生活常识网

mor拜客生活常识网

1、解决了困难的鞍点优化问题，可以解释为生成器和判别器之间的对抗博弈；mor拜客生活常识网

mor拜客生活常识网

2、将生成器和判别器参数化为深度卷积神经网络。mor拜客生活常识网

mor拜客生活常识网

2019年，研究人员提出Generative Latent Optimization(GLO)，使用简单的重建损失来训练深度卷积生成器，可以合成视觉上吸引人的样本、在样本之间进行平均插值，并对噪声向量进行线性运算。mor拜客生活常识网

mor拜客生活常识网

最重要的是：这些效果的实现都不需要对抗优化方案。mor拜客生活常识网

mor拜客生活常识网

论文链接：https://arxiv.org/pdf/1707.05776.pdfmor拜客生活常识网

mor拜客生活常识网

NeRF需要多视角数据不就是为了对抗性训练吗？mor拜客生活常识网

mor拜客生活常识网

如果GLO无需对抗训练即可实现GAN，那二者结合起来，岂不就是不需要多视角的NeRF！mor拜客生活常识网

mor拜客生活常识网

GLO是一种通用的方法，通过共同学习解码器神经网络和潜码表来学习重建一个数据集（如一组二维图像），该编码表也是解码器的输入。mor拜客生活常识网

mor拜客生活常识网

每一个潜码都从数据集中重新创建了一个单一的元素（如图像）。由于潜伏代码的维度少于数据元素本身，网络需要对数据进行泛化，学习数据中的共同结构（如狗鼻子的一般形状）。mor拜客生活常识网

mor拜客生活常识网

NeRF是一种非常善于从二维图像重建静态三维物体的技术。它用一个神经网络表示一个物体，为三维空间中的每个点输出颜色和密度。颜色和密度值是沿着射线积累的，二维图像中的每个像素都有一条射线。然后使用标准的计算机图形体积渲染将这些值结合起来，计算出最终的像素颜色。mor拜客生活常识网

mor拜客生活常识网

重要的是，所有这些操作都是可微的，可以进行端到端的监督训练。通过强制要求每个渲染的像素（三维）与基准（二维）像素的颜色相匹配，神经网络可以创建一个从任何视角渲染的三维。mor拜客生活常识网

mor拜客生活常识网

将NeRF与GLO结合起来，给每个物体分配一个潜码，与标准的NeRF输入相连接，使其有能力重建多个物体。mor拜客生活常识网

mor拜客生活常识网

在GLO之后，研究人员在训练期间将这些潜码与网络权重共同优化以重建输入图像。