GIRAFFE: Representing Scenes as Compositional Generative Neural Feature Fields

深度生成模型允许在高分辨率下进行真实感图像合成。但对于许多应用程序来说,这还不够:内容创建也需要可控。虽然最近的几项工作研究了如何解开数据变化的潜在因素,但大多数工作都是在二维环境中进行的,因此忽略了我们的世界是三维的。此外,只有少数作品考虑了场景的构图性质。我们的关键假设是,将合成3D场景表示合并到生成模型中会导致更可控的图像合成。将场景表示为合成生成的神经特征场允许我们从背景中分离一个或多个对象以及单个对象的形状和外观,同时从非结构化和未经处理的图像集合中学习,而无需任何额外的监督。将该场景表示与神经渲染管道相结合,可以生成一个快速、逼真的图像合成模型。我们的实验证明,我们的模型能够分离单个对象,并允许在场景中平移和旋转它们,以及更改相机姿势
https://github.com/jixinya/EVP/