AdaGaR: Adaptive Gabor Representation for Dynamic Scene Reconstruction
作者: Jiewen Chan, Zhenjun Zhao, Yu-Lun Liu
分类: cs.CV
发布日期: 2026-01-02
备注: Project page: https://jiewenchan.github.io/AdaGaR/
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
AdaGaR:自适应Gabor表示用于动态场景重建,提升细节捕捉与时间连续性。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 动态场景重建 Gabor表示 时间连续性 自适应学习 单目视频
📋 核心要点
- 现有动态场景重建方法在高频细节捕捉和时间连续性上存在不足,易产生运动伪影。
- AdaGaR通过自适应Gabor表示和时间曲率正则化,实现了频率自适应和时间连续性的统一建模。
- 实验表明,AdaGaR在多个任务上取得了SOTA性能,并展现出良好的泛化能力。
📝 摘要(中文)
本文提出AdaGaR,一个统一的框架,用于显式动态场景建模中的频率自适应和时间连续性问题。现有方法使用单一高斯基元,受限于其低通滤波特性,而标准Gabor函数则引入能量不稳定问题。此外,缺乏时间连续性约束常常导致插值过程中的运动伪影。AdaGaR引入自适应Gabor表示,通过可学习的频率权重和自适应能量补偿来扩展高斯函数,从而平衡细节捕捉和稳定性。为了保证时间连续性,采用带有时间曲率正则化的三次Hermite样条来确保平滑的运动演化。自适应初始化机制结合深度估计、点跟踪和前景掩码,在早期训练中建立稳定的点云分布。在Tap-Vid DAVIS数据集上的实验表明,该方法取得了最先进的性能(PSNR 35.49, SSIM 0.9433, LPIPS 0.0723),并在帧插值、深度一致性、视频编辑和立体视图合成方面表现出强大的泛化能力。
🔬 方法详解
问题定义:动态场景重建旨在从单目视频中恢复场景的3D结构和运动信息。现有方法,如基于高斯基元的表示,由于其低通滤波特性,难以捕捉高频细节。而直接使用Gabor函数则容易导致能量不稳定。此外,缺乏时间连续性约束会导致重建结果在时间上不连贯,产生运动伪影。
核心思路:AdaGaR的核心思路是通过引入自适应Gabor表示来增强细节捕捉能力,并利用时间曲率正则化来保证时间连续性。自适应Gabor表示通过学习频率权重和进行能量补偿,在细节捕捉和稳定性之间取得平衡。时间曲率正则化则通过约束运动的平滑性,减少运动伪影。
技术框架:AdaGaR的整体框架包括以下几个主要模块:1) 自适应初始化:利用深度估计、点跟踪和前景掩码来初始化点云分布。2) 自适应Gabor表示:使用可学习的频率权重和自适应能量补偿来扩展高斯函数。3) 时间连续性建模:采用带有时间曲率正则化的三次Hermite样条来建模运动轨迹。4) 渲染:将3D场景渲染成2D图像,并与真实图像进行比较,计算损失。
关键创新:AdaGaR的关键创新在于自适应Gabor表示和时间曲率正则化。自适应Gabor表示通过学习频率权重,能够根据场景内容自适应地调整滤波器的频率响应,从而更好地捕捉细节。时间曲率正则化则通过约束运动的二阶导数,保证了运动的平滑性,减少了运动伪影。
关键设计:在自适应Gabor表示中,频率权重通过一个小型神经网络进行学习。能量补偿则通过一个可学习的缩放因子来实现。时间曲率正则化采用L2范数来约束运动轨迹的二阶导数。损失函数包括图像重建损失、深度一致性损失和时间曲率正则化损失。
🖼️ 关键图片
📊 实验亮点
AdaGaR在Tap-Vid DAVIS数据集上取得了state-of-the-art的性能,PSNR达到35.49,SSIM达到0.9433,LPIPS达到0.0723。相比于现有方法,AdaGaR在帧插值、深度一致性、视频编辑和立体视图合成等任务上均表现出更强的泛化能力,证明了其有效性和鲁棒性。
🎯 应用场景
AdaGaR在动态场景重建领域具有广泛的应用前景,例如视频编辑、虚拟现实、增强现实、机器人导航等。它可以用于创建高质量的3D动态场景模型,为用户提供更加沉浸式的体验。此外,该方法还可以用于视频修复、运动捕捉等任务,具有重要的实际应用价值。
📄 摘要(原文)
Reconstructing dynamic 3D scenes from monocular videos requires simultaneously capturing high-frequency appearance details and temporally continuous motion. Existing methods using single Gaussian primitives are limited by their low-pass filtering nature, while standard Gabor functions introduce energy instability. Moreover, lack of temporal continuity constraints often leads to motion artifacts during interpolation. We propose AdaGaR, a unified framework addressing both frequency adaptivity and temporal continuity in explicit dynamic scene modeling. We introduce Adaptive Gabor Representation, extending Gaussians through learnable frequency weights and adaptive energy compensation to balance detail capture and stability. For temporal continuity, we employ Cubic Hermite Splines with Temporal Curvature Regularization to ensure smooth motion evolution. An Adaptive Initialization mechanism combining depth estimation, point tracking, and foreground masks establishes stable point cloud distributions in early training. Experiments on Tap-Vid DAVIS demonstrate state-of-the-art performance (PSNR 35.49, SSIM 0.9433, LPIPS 0.0723) and strong generalization across frame interpolation, depth consistency, video editing, and stereo view synthesis. Project page: https://jiewenchan.github.io/AdaGaR/