Online Video Depth Anything: Temporally-Consistent Depth Prediction with Low Memory Consumption

📄 arXiv: 2510.09182v1 📥 PDF

作者: Johann-Friedrich Feiden, Tim Küchler, Denis Zavadski, Bogdan Savchynskyy, Carsten Rother

分类: cs.CV

发布日期: 2025-10-10


💡 一句话要点

提出oVDA,通过缓存和掩码技术实现低内存、在线视频深度估计

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 在线视频深度估计 低内存占用 边缘计算 时间一致性 缓存机制 帧掩码 单目深度估计

📋 核心要点

  1. 现有VDA方法依赖批处理,无法满足在线视频深度估计的实时性需求,限制了其在边缘设备上的应用。
  2. oVDA借鉴LLM的思路,通过缓存推理过程中的潜在特征和训练时的帧掩码,降低了内存占用,实现了在线处理。
  3. 实验表明,oVDA在精度和VRAM使用上优于其他在线方法,并在NVIDIA A100和Jetson设备上实现了较高的帧率。

📝 摘要(中文)

单目视频深度估计已成为许多实际计算机视觉系统的关键组成部分。最近,Video Depth Anything (VDA) 在长视频序列上表现出强大的性能。然而,它依赖于批处理,这限制了其在在线环境中的使用。在这项工作中,我们克服了这个限制,并引入了在线VDA (oVDA)。关键创新是采用来自大型语言模型 (LLM) 的技术,即在推理期间缓存潜在特征并在训练时掩盖帧。我们的oVDA方法在准确性和VRAM使用方面都优于所有竞争的在线视频深度估计方法。低VRAM使用对于在边缘设备上部署尤其重要。我们证明了oVDA在NVIDIA A100上以42 FPS运行,在NVIDIA Jetson边缘设备上以20 FPS运行。我们将发布代码和编译脚本,使oVDA易于部署在低功耗硬件上。

🔬 方法详解

问题定义:论文旨在解决在线视频深度估计问题,即在视频流实时输入的情况下,快速准确地估计每一帧的深度信息。现有方法,特别是VDA,虽然精度高,但依赖于批处理,需要一次性加载整个视频序列,无法满足在线场景的低延迟需求,且内存占用高,难以在边缘设备上部署。

核心思路:论文的核心思路是借鉴大型语言模型(LLM)中的缓存机制,在推理过程中缓存先前帧的潜在特征,避免重复计算,从而降低内存占用并提高处理速度。此外,在训练过程中引入帧掩码,增强模型对遮挡和运动模糊的鲁棒性,提高深度估计的准确性。

技术框架:oVDA的整体框架基于现有的VDA模型,主要包括特征提取、特征融合和深度预测三个模块。关键改进在于特征融合模块,该模块引入了缓存机制,将先前帧的潜在特征存储在缓存中,并在当前帧的特征融合过程中利用这些缓存特征。此外,训练过程也进行了修改,引入了帧掩码策略。

关键创新:最重要的技术创新点在于将LLM中的缓存机制引入到视频深度估计任务中。与传统的批处理方法相比,oVDA只需要存储少量先前帧的潜在特征,大大降低了内存占用。与直接的在线方法相比,oVDA通过缓存特征实现了更好的时间一致性,提高了深度估计的准确性。

关键设计:缓存大小是一个关键参数,决定了内存占用和时间一致性之间的权衡。论文可能采用了滑动窗口的方式管理缓存,并设计了相应的特征更新策略。帧掩码策略可能包括随机掩盖部分帧或区域,以模拟遮挡和运动模糊。损失函数可能包括深度预测损失、时间一致性损失等,以保证深度估计的准确性和时间稳定性。具体的网络结构细节和参数设置需要在论文中进一步查找。

📊 实验亮点

oVDA在准确性和VRAM使用方面均优于现有在线视频深度估计方法。实验结果表明,oVDA在NVIDIA A100 GPU上实现了42 FPS的帧率,在NVIDIA Jetson边缘设备上实现了20 FPS的帧率,证明了其在低功耗硬件上的部署潜力。具体的精度提升幅度需要参考论文中的实验数据,例如与其他在线方法的深度估计误差指标对比。

🎯 应用场景

oVDA具有广泛的应用前景,包括自动驾驶、机器人导航、增强现实和虚拟现实等领域。在自动驾驶中,可以利用oVDA实时感知周围环境的深度信息,提高驾驶安全性。在机器人导航中,可以帮助机器人理解周围环境,规划最佳路径。在AR/VR中,可以提供更逼真的沉浸式体验。由于其低内存占用和高效率,oVDA特别适合在边缘设备上部署,为移动应用和物联网设备提供强大的深度感知能力。

📄 摘要(原文)

Depth estimation from monocular video has become a key component of many real-world computer vision systems. Recently, Video Depth Anything (VDA) has demonstrated strong performance on long video sequences. However, it relies on batch-processing which prohibits its use in an online setting. In this work, we overcome this limitation and introduce online VDA (oVDA). The key innovation is to employ techniques from Large Language Models (LLMs), namely, caching latent features during inference and masking frames at training. Our oVDA method outperforms all competing online video depth estimation methods in both accuracy and VRAM usage. Low VRAM usage is particularly important for deployment on edge devices. We demonstrate that oVDA runs at 42 FPS on an NVIDIA A100 and at 20 FPS on an NVIDIA Jetson edge device. We will release both, code and compilation scripts, making oVDA easy to deploy on low-power hardware.