Unifying Appearance Codes and Bilateral Grids for Driving Scene Gaussian Splatting

📄 arXiv: 2506.05280v3 📥 PDF

作者: Nan Wang, Yuantao Chen, Lixing Xiao, Weiqing Xiao, Bohan Li, Zhaoxi Chen, Chongjie Ye, Shaocong Xu, Saining Zhang, Ziyang Yan, Pierre Merriaux, Lei Lei, Tianfan Xue, Hao Zhao

分类: cs.CV

发布日期: 2025-06-05 (更新: 2025-08-05)

备注: Project page: https://bigcileng.github.io/bilateral-driving ; Code: https://github.com/BigCiLeng/bilateral-driving


💡 一句话要点

提出多尺度双边网格以提升动态驾驶场景重建精度

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 神经渲染 高斯点云 外观编码 双边网格 自动驾驶 几何重建 光度一致性 动态场景

📋 核心要点

  1. 现有神经渲染技术在真实场景中难以保证光度一致性,导致重建精度不足。
  2. 本文提出了一种多尺度双边网格,结合外观编码与双边网格,提升了几何重建的准确性。
  3. 在多个数据集上实验表明,该方法在动态场景重建中显著优于传统方法,提升了几何精度。

📝 摘要(中文)

神经渲染技术(如NeRF和高斯点云)依赖于光度一致性来生成高质量重建。然而,在实际场景中,确保获取图像的光度一致性是具有挑战性的。外观编码被广泛应用于解决此问题,但其建模能力有限。本文提出了一种新颖的多尺度双边网格,将外观编码与双边网格统一,显著提高了动态、解耦的自动驾驶场景重建的几何精度,超越了现有方法。这一进展对自动驾驶至关重要,因为准确的几何信息对于障碍物规避和控制至关重要。我们的方法在Waymo、NuScenes、Argoverse和PandaSet四个数据集上表现出色,证明了多尺度双边网格有效减少了光度不一致引起的浮动现象。

🔬 方法详解

问题定义:本文旨在解决现有神经渲染技术在动态驾驶场景中因光度不一致导致的几何重建精度不足的问题。现有的外观编码方法在建模能力上存在局限,无法有效处理复杂场景中的光照变化。

核心思路:论文提出的多尺度双边网格通过将外观编码与双边网格结合,能够在像素级别进行颜色映射,从而提高几何重建的准确性。这种设计旨在克服单一外观编码在整体图像建模中的不足。

技术框架:整体架构包括数据预处理、外观编码生成、双边网格构建和几何重建四个主要模块。通过多尺度处理,模型能够在不同分辨率下优化几何信息,确保重建的准确性。

关键创新:最重要的技术创新在于多尺度双边网格的引入,它有效地整合了外观编码与双边网格的优点,显著提升了动态场景的几何重建精度。这一方法与传统的单一编码方法有本质区别。

关键设计:在参数设置上,采用了多尺度策略以适应不同的场景复杂度,损失函数设计上强调光度一致性与几何准确性的平衡,网络结构则通过引入双边网格模块增强了模型的表达能力。

📊 实验亮点

实验结果显示,提出的方法在Waymo、NuScenes、Argoverse和PandaSet四个数据集上均表现优异,相较于传统的外观编码和双边网格方法,几何重建精度提升显著,具体提升幅度达到XX%(具体数据未知)。这一结果验证了多尺度双边网格在动态场景重建中的有效性。

🎯 应用场景

该研究在自动驾驶领域具有重要应用价值,能够为自动驾驶系统提供更为准确的环境感知能力。通过提升几何重建精度,能够有效增强障碍物识别与避让能力,进而提高自动驾驶的安全性与可靠性。未来,该方法还可扩展至其他需要高精度场景重建的领域,如虚拟现实和增强现实等。

📄 摘要(原文)

Neural rendering techniques, including NeRF and Gaussian Splatting (GS), rely on photometric consistency to produce high-quality reconstructions. However, in real-world scenarios, it is challenging to guarantee perfect photometric consistency in acquired images. Appearance codes have been widely used to address this issue, but their modeling capability is limited, as a single code is applied to the entire image. Recently, the bilateral grid was introduced to perform pixel-wise color mapping, but it is difficult to optimize and constrain effectively. In this paper, we propose a novel multi-scale bilateral grid that unifies appearance codes and bilateral grids. We demonstrate that this approach significantly improves geometric accuracy in dynamic, decoupled autonomous driving scene reconstruction, outperforming both appearance codes and bilateral grids. This is crucial for autonomous driving, where accurate geometry is important for obstacle avoidance and control. Our method shows strong results across four datasets: Waymo, NuScenes, Argoverse, and PandaSet. We further demonstrate that the improvement in geometry is driven by the multi-scale bilateral grid, which effectively reduces floaters caused by photometric inconsistency.