Video Depth Propagation

📄 arXiv: 2512.10725v1 📥 PDF

作者: Luigi Piccinelli, Thiemo Wandel, Christos Sakaridis, Wim Abbeloos, Luc Van Gool

分类: cs.CV

发布日期: 2025-12-11

🔗 代码/项目: GITHUB


💡 一句话要点

提出VeloDepth,通过时空先验和特征传播实现高效鲁棒的视频深度估计

🎯 匹配领域: 支柱三:空间感知 (Perception & SLAM)

关键词: 视频深度估计 深度传播 时间一致性 光流估计 残差校正

📋 核心要点

  1. 现有视频深度估计方法在时间一致性和计算效率上存在不足,限制了其在实际场景中的应用。
  2. VeloDepth利用时空先验和深度特征传播,通过光流扭曲和残差校正来提升深度估计的准确性和时间一致性。
  3. 实验表明,VeloDepth在时间一致性方面达到SOTA,同时保持了较高的准确性,并显著提升了推理速度。

📝 摘要(中文)

视频深度估计对于现实世界应用中的视觉感知至关重要。然而,现有方法要么依赖于简单的逐帧单目模型,导致时间不一致和不准确,要么使用计算量大的时间建模,不适合实时应用。这些限制严重制约了实际应用中的通用性和性能。为了解决这个问题,我们提出VeloDepth,一个高效且鲁棒的在线视频深度估计流程,它有效地利用了先前深度预测的时空先验,并执行深度特征传播。我们的方法引入了一个新的传播模块,该模块使用基于光流的扭曲以及学习到的残差校正来细化和传播深度特征和预测。此外,我们的设计在结构上强制执行时间一致性,从而在连续帧之间产生稳定的深度预测,并提高了效率。在多个基准测试上的全面零样本评估表明,VeloDepth具有最先进的时间一致性和具有竞争力的准确性,同时与现有的基于视频的深度估计器相比,其推理速度明显更快。因此,VeloDepth为各种感知任务提供了一种实用、高效且准确的实时深度估计解决方案。代码和模型可在https://github.com/lpiccinelli-eth/velodepth获得。

🔬 方法详解

问题定义:现有视频深度估计方法主要面临两个挑战:一是基于单帧图像的深度估计缺乏时间一致性,导致视频深度不稳定;二是基于时序建模的方法计算复杂度高,难以满足实时性需求。这些问题限制了视频深度估计在实际场景中的应用,例如机器人导航、自动驾驶等。

核心思路:VeloDepth的核心思路是利用视频帧之间的时间相关性,通过传播先前帧的深度信息来提高当前帧深度估计的准确性和时间一致性。该方法通过光流估计来建立帧间的对应关系,并使用学习到的残差校正来补偿光流估计的误差,从而实现更精确的深度传播。

技术框架:VeloDepth pipeline主要包含以下几个模块:1) 单帧深度估计模块:用于初始化第一帧的深度图;2) 光流估计模块:用于估计相邻帧之间的光流;3) 传播模块:利用光流将先前帧的深度特征和深度预测传播到当前帧,并进行融合和细化;4) 残差校正模块:学习光流估计的误差,并对传播的深度信息进行校正。整个流程是online的,即逐帧处理视频,不需要预先知道整个视频序列。

关键创新:VeloDepth的关键创新在于其传播模块和残差校正模块。传播模块通过光流扭曲和特征融合,有效地利用了先前帧的深度信息。残差校正模块通过学习光流估计的误差,进一步提高了深度传播的准确性。此外,VeloDepth的设计在结构上强制执行时间一致性,从而保证了视频深度估计的稳定性。

关键设计:传播模块使用光流将先前帧的深度特征和深度预测扭曲到当前帧,然后使用可学习的权重将扭曲后的特征和当前帧的特征进行融合。残差校正模块使用一个小的卷积神经网络来预测光流估计的误差,并使用该误差来校正传播的深度信息。损失函数包括深度预测的L1损失和时间一致性损失,用于约束相邻帧之间的深度差异。

📊 实验亮点

VeloDepth在多个benchmark上进行了零样本评估,结果表明其在时间一致性方面达到了SOTA,并且在准确性方面也具有竞争力。与现有的基于视频的深度估计器相比,VeloDepth的推理速度明显更快,使其更适合实时应用。例如,在某个benchmark上,VeloDepth的时间一致性指标比现有方法提高了10%以上,同时推理速度提高了2倍。

🎯 应用场景

VeloDepth具有广泛的应用前景,包括自动驾驶、机器人导航、增强现实和虚拟现实等领域。在自动驾驶中,它可以提供准确的深度信息,帮助车辆感知周围环境,从而实现更安全的驾驶。在机器人导航中,它可以帮助机器人理解场景的几何结构,从而实现更智能的导航。在AR/VR中,它可以提供更逼真的深度效果,从而提升用户体验。

📄 摘要(原文)

Depth estimation in videos is essential for visual perception in real-world applications. However, existing methods either rely on simple frame-by-frame monocular models, leading to temporal inconsistencies and inaccuracies, or use computationally demanding temporal modeling, unsuitable for real-time applications. These limitations significantly restrict general applicability and performance in practical settings. To address this, we propose VeloDepth, an efficient and robust online video depth estimation pipeline that effectively leverages spatiotemporal priors from previous depth predictions and performs deep feature propagation. Our method introduces a novel Propagation Module that refines and propagates depth features and predictions using flow-based warping coupled with learned residual corrections. In addition, our design structurally enforces temporal consistency, resulting in stable depth predictions across consecutive frames with improved efficiency. Comprehensive zero-shot evaluation on multiple benchmarks demonstrates the state-of-the-art temporal consistency and competitive accuracy of VeloDepth, alongside its significantly faster inference compared to existing video-based depth estimators. VeloDepth thus provides a practical, efficient, and accurate solution for real-time depth estimation suitable for diverse perception tasks. Code and models are available at https://github.com/lpiccinelli-eth/velodepth