ProSGNeRF: Progressive Dynamic Neural Scene Graph with Frequency Modulated Auto-Encoder in Urban Scenes

📄 arXiv: 2312.09076v2 📥 PDF

作者: Tianchen Deng, Siyang Liu, Xuan Wang, Yejia Liu, Danwei Wang, Weidong Chen

分类: cs.CV

发布日期: 2023-12-14 (更新: 2023-12-15)


💡 一句话要点

ProSGNeRF:一种用于城市场景中动态神经场景图的渐进式方法,结合频率调制自编码器。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 神经渲染 动态场景 场景图 视角合成 频率自编码器

📋 核心要点

  1. 现有方法难以在大型动态城市场景中进行高质量的视角合成,尤其是在快速移动物体和稀疏视角下。
  2. ProSGNeRF利用图结构学习动态物体和背景的局部场景表示,并采用渐进式方案扩展到大型场景。
  3. 通过频率自编码器增强动态物体的表示,并结合激光雷达点投影保持几何一致性,实验证明了其优越性。

📝 摘要(中文)

隐式神经表示在大型复杂场景的视角合成方面表现出良好的效果。然而,现有方法要么无法捕捉快速移动的物体,要么需要在没有相机自身运动的情况下构建场景图,导致场景的合成视角质量较低。本文旨在联合解决大规模城市场景和快速移动车辆的视角合成问题,这更具实用性和挑战性。为此,我们首先利用图结构来学习动态物体和背景的局部场景表示。然后,我们设计了一种渐进式方案,动态地分配一个新的局部场景图,该图使用时间窗口内的帧进行训练,从而使我们能够将表示扩展到任意大的场景。此外,城市场景的训练视角相对稀疏,这导致动态物体的重建精度显著下降。因此,我们设计了一个频率自编码器网络来编码潜在代码并规范物体的频率范围,这可以增强动态物体的表示并解决稀疏图像输入的问题。此外,我们采用激光雷达点投影来保持大规模城市场景中的几何一致性。实验结果表明,我们的方法实现了最先进的视角合成精度、物体操作和场景漫游能力。代码将在论文被接收后开源。

🔬 方法详解

问题定义:现有方法在处理大规模动态城市场景的视角合成时,面临两个主要痛点:一是难以捕捉快速移动的物体,导致合成图像质量下降;二是训练视角稀疏,使得动态物体的重建精度不高。此外,现有方法通常需要预先构建场景图,无法处理相机自身运动的情况。

核心思路:ProSGNeRF的核心思路是利用图结构来表示场景,将场景分解为多个局部场景图,分别表示动态物体和背景。通过渐进式地增加新的局部场景图,可以扩展到任意大的场景。同时,利用频率自编码器来增强动态物体的表示,并使用激光雷达点云投影来保持场景的几何一致性。

技术框架:ProSGNeRF的整体框架包含以下几个主要模块:1) 场景图构建模块,用于构建局部场景图,表示动态物体和背景;2) 渐进式训练模块,用于动态地分配新的局部场景图,并使用时间窗口内的帧进行训练;3) 频率自编码器模块,用于编码潜在代码并规范物体的频率范围,增强动态物体的表示;4) 激光雷达点云投影模块,用于保持大规模城市场景中的几何一致性。

关键创新:ProSGNeRF的关键创新在于以下几个方面:1) 提出了一种渐进式的场景图构建方法,可以扩展到任意大的场景;2) 设计了一种频率自编码器,可以增强动态物体的表示,并解决稀疏图像输入的问题;3) 结合了激光雷达点云投影,可以保持大规模城市场景中的几何一致性。

关键设计:频率自编码器的设计是关键。具体来说,该网络旨在学习动态物体的潜在表示,并强制其频率范围符合预期。损失函数可能包含重建损失、频率正则化项等。渐进式训练方案也需要仔细设计,例如如何确定何时添加新的局部场景图,以及如何平衡不同局部场景图的训练。

📊 实验亮点

实验结果表明,ProSGNeRF在视角合成精度方面达到了最先进水平。与现有方法相比,ProSGNeRF在动态物体的重建质量和场景漫游能力方面都有显著提升。具体的性能数据(例如PSNR、SSIM等指标)和对比基线需要在论文中查找。

🎯 应用场景

ProSGNeRF在自动驾驶、城市建模、虚拟现实等领域具有广泛的应用前景。它可以用于生成高质量的城市场景视图,支持自动驾驶车辆的感知和决策,也可以用于构建逼真的虚拟城市环境,为用户提供沉浸式的体验。此外,该方法还可以用于城市规划和管理,例如模拟城市交通流量、评估城市基础设施的性能等。

📄 摘要(原文)

Implicit neural representation has demonstrated promising results in view synthesis for large and complex scenes. However, existing approaches either fail to capture the fast-moving objects or need to build the scene graph without camera ego-motions, leading to low-quality synthesized views of the scene. We aim to jointly solve the view synthesis problem of large-scale urban scenes and fast-moving vehicles, which is more practical and challenging. To this end, we first leverage a graph structure to learn the local scene representations of dynamic objects and the background. Then, we design a progressive scheme that dynamically allocates a new local scene graph trained with frames within a temporal window, allowing us to scale up the representation to an arbitrarily large scene. Besides, the training views of urban scenes are relatively sparse, which leads to a significant decline in reconstruction accuracy for dynamic objects. Therefore, we design a frequency auto-encoder network to encode the latent code and regularize the frequency range of objects, which can enhance the representation of dynamic objects and address the issue of sparse image inputs. Additionally, we employ lidar point projection to maintain geometry consistency in large-scale urban scenes. Experimental results demonstrate that our method achieves state-of-the-art view synthesis accuracy, object manipulation, and scene roaming ability. The code will be open-sourced upon paper acceptance.