Any to Full: Prompting Depth Anything for Depth Completion in One Stage
作者: Zhiyuan Zhou, Ruofeng Liu, Taichi Liu, Weijian Zuo, Shanshan Wang, Zhiqing Hong, Desheng Zhang
分类: cs.CV
发布日期: 2026-03-05
🔗 代码/项目: GITHUB
💡 一句话要点
Any2Full:单阶段Prompt深度补全,提升机器人感知精度与效率
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 深度补全 单目深度估计 Prompt学习 机器人感知 领域泛化
📋 核心要点
- 现有RGBD融合深度补全方法依赖特定数据先验,泛化性差,且两阶段集成策略计算成本高,易引入结构性失真。
- Any2Full将深度补全重构为预训练单目深度估计模型的尺度Prompt自适应,实现单阶段、领域通用和模式无关的补全。
- Any2Full在鲁棒性和效率上表现出色,在平均AbsREL指标上优于OMNI-DC 32.2%,速度比PriorDA快1.4倍。
📝 摘要(中文)
精确且稠密的深度估计对于机器人感知至关重要,但受限于硬件,常用传感器往往产生稀疏或不完整的深度测量。现有的RGBD融合深度补全方法联合学习依赖于训练RGB分布和特定深度模式的先验知识,限制了领域泛化能力和对各种深度模式的鲁棒性。最近的研究利用单目深度估计(MDE)模型引入领域通用的几何先验,但目前依赖于显式相对-度量对齐的两阶段集成策略会带来额外的计算开销并引入结构性失真。为此,我们提出了Any2Full,这是一个单阶段、领域通用且模式无关的框架,它将补全重新定义为预训练MDE模型的尺度Prompt自适应。为了解决不同的深度稀疏程度和不规则的空间分布,我们设计了一个尺度感知Prompt编码器。它将稀疏输入中的尺度线索提炼成统一的尺度Prompt,引导MDE模型实现全局尺度一致的预测,同时保留其几何先验。大量实验表明,Any2Full实现了卓越的鲁棒性和效率。在平均AbsREL指标上,它优于OMNI-DC 32.2%,并且在使用相同MDE骨干网络的情况下,速度比PriorDA快1.4倍,为通用深度补全建立了一种新的范例。
🔬 方法详解
问题定义:论文旨在解决深度补全问题,即如何利用稀疏或不完整的深度信息,结合RGB图像,生成稠密且准确的深度图。现有方法,特别是RGBD融合方法,依赖于特定数据集的先验知识,导致泛化能力不足。而基于单目深度估计的两阶段方法计算复杂,且容易引入结构性失真。
核心思路:论文的核心思路是将深度补全问题转化为一个Prompt学习问题,利用预训练的单目深度估计模型作为基础,通过学习一个尺度感知的Prompt,引导模型适应不同的深度稀疏度和分布,从而实现更鲁棒和高效的深度补全。
技术框架:Any2Full框架主要包含一个尺度感知Prompt编码器和一个预训练的单目深度估计模型。首先,尺度感知Prompt编码器将稀疏的深度输入编码成一个统一的尺度Prompt。然后,这个Prompt被输入到预训练的单目深度估计模型中,引导模型生成全局尺度一致的稠密深度图。整个过程是单阶段的,避免了两阶段方法中的对齐问题。
关键创新:论文的关键创新在于提出了尺度感知的Prompt编码器,它能够从稀疏的深度输入中提取尺度信息,并将其转化为一个有效的Prompt,从而引导预训练的单目深度估计模型生成准确的深度图。这种方法避免了对特定数据集的依赖,提高了模型的泛化能力。
关键设计:尺度感知Prompt编码器的具体设计未知,论文中可能没有详细描述其内部结构和参数设置。损失函数的设计也未知,但推测可能包含深度一致性损失和尺度一致性损失,以保证生成深度图的准确性和全局一致性。预训练的单目深度估计模型可以使用现有的成熟模型,例如Depth Anything。
🖼️ 关键图片
📊 实验亮点
Any2Full在深度补全任务上取得了显著的性能提升。相较于OMNI-DC,Any2Full在平均AbsREL指标上实现了32.2%的提升。同时,与PriorDA相比,Any2Full在保持相同MDE骨干网络的情况下,实现了1.4倍的加速。这些结果表明,Any2Full在精度和效率上都具有明显的优势。
🎯 应用场景
该研究成果可广泛应用于机器人导航、自动驾驶、三维重建、虚拟现实等领域。通过提升深度感知的精度和效率,可以增强机器人在复杂环境中的适应性和鲁棒性,为更高级的感知和决策任务提供支持。未来,该方法有望应用于低成本、低功耗的嵌入式设备,实现更广泛的普及。
📄 摘要(原文)
Accurate, dense depth estimation is crucial for robotic perception, but commodity sensors often yield sparse or incomplete measurements due to hardware limitations. Existing RGBD-fused depth completion methods learn priors jointly conditioned on training RGB distribution and specific depth patterns, limiting domain generalization and robustness to various depth patterns. Recent efforts leverage monocular depth estimation (MDE) models to introduce domain-general geometric priors, but current two-stage integration strategies relying on explicit relative-to-metric alignment incur additional computation and introduce structured distortions. To this end, we present Any2Full, a one-stage, domain-general, and pattern-agnostic framework that reformulates completion as a scale-prompting adaptation of a pretrained MDE model. To address varying depth sparsity levels and irregular spatial distributions, we design a Scale-Aware Prompt Encoder. It distills scale cues from sparse inputs into unified scale prompts, guiding the MDE model toward globally scale-consistent predictions while preserving its geometric priors. Extensive experiments demonstrate that Any2Full achieves superior robustness and efficiency. It outperforms OMNI-DC by 32.2\% in average AbsREL and delivers a 1.4$\times$ speedup over PriorDA with the same MDE backbone, establishing a new paradigm for universal depth completion. Codes and checkpoints are available at https://github.com/zhiyuandaily/Any2Full.