Efficient Test-Time Optimization for Depth Completion via Low-Rank Decoder Adaptation
作者: Minseok Seo, Wonjun Lee, Jaehyuk Jang, Changick Kim
分类: cs.CV
发布日期: 2026-03-02
备注: 17 pages, 7 figures [We achieved a new Pareto frontier in test-time depth completion.]
💡 一句话要点
提出基于低秩解码器自适应的高效测试时深度补全方法
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 深度补全 测试时优化 低秩自适应 零样本学习 深度学习
📋 核心要点
- 现有零样本深度补全方法计算成本高,推理速度慢,限制了实际应用。
- 提出仅自适应解码器的低秩子空间,利用深度基础模型的信息集中特性,实现高效测试时优化。
- 实验表明,该方法在多个数据集上超越现有技术,并在准确性和效率之间取得了新的平衡。
📝 摘要(中文)
零样本深度补全因其无需特定传感器数据集或重新训练即可跨环境泛化的能力而备受关注。然而,现有方法大多依赖于基于扩散的测试时优化,由于迭代去噪,计算成本高昂。最近基于视觉提示的方法降低了训练成本,但仍需通过完整的冻结网络进行重复的前向-后向传播来优化输入级提示,导致推理速度缓慢。本文表明,仅自适应解码器就足以实现有效的测试时优化,因为深度基础模型将深度相关信息集中在低维解码器子空间中。基于此,我们提出了一种轻量级的测试时自适应方法,该方法仅使用稀疏深度监督来更新这个低维子空间。我们的方法实现了最先进的性能,在测试时自适应的准确性和效率之间建立了一个新的帕累托前沿。在五个室内和室外数据集上的大量实验表明,相对于先前方法,我们的方法具有持续的改进,突出了快速零样本深度补全的实用性。
🔬 方法详解
问题定义:论文旨在解决零样本深度补全中,现有基于扩散模型或视觉提示的方法在测试时优化过程中计算开销过大的问题。这些方法要么需要迭代去噪,要么需要通过整个网络进行多次前向-后向传播,导致推理速度慢,难以满足实时性要求。
核心思路:论文的核心思路是,深度基础模型已经将深度相关的信息压缩到了一个低维的解码器子空间中。因此,只需要对这个低维子空间进行自适应调整,就可以实现有效的测试时优化,而无需对整个网络进行调整,从而大大降低计算成本。
技术框架:该方法主要包含以下几个阶段:1) 使用预训练的深度基础模型(编码器-解码器结构)提取特征;2) 冻结编码器参数,只对解码器进行自适应调整;3) 利用稀疏深度监督信息,优化解码器中的低秩子空间;4) 使用优化后的解码器进行深度补全。
关键创新:最重要的技术创新点在于,发现了深度信息集中在解码器的低维子空间中这一现象,并据此提出了只对解码器进行自适应调整的策略。这与以往需要调整整个网络或输入提示的方法相比,大大降低了计算复杂度,提高了推理速度。
关键设计:论文的关键设计包括:1) 使用低秩分解来表示解码器的子空间,从而减少需要优化的参数数量;2) 设计合适的损失函数,利用稀疏深度监督信息来指导解码器的自适应调整;3) 选择合适的优化算法,以保证自适应过程的稳定性和收敛速度。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在五个室内和室外数据集上均取得了显著的性能提升,并在准确性和效率之间达到了新的帕累托最优。例如,在某个数据集上,该方法在保持相当精度的前提下,推理速度比现有最佳方法提升了数倍,证明了其在实际应用中的可行性。
🎯 应用场景
该研究成果可广泛应用于机器人导航、自动驾驶、三维重建、虚拟现实等领域。通过高效的零样本深度补全,可以提升这些应用在未知环境中的适应性和实时性,降低对大量训练数据的依赖,具有重要的实际应用价值和商业前景。
📄 摘要(原文)
Zero-shot depth completion has gained attention for its ability to generalize across environments without sensor-specific datasets or retraining. However, most existing approaches rely on diffusion-based test-time optimization, which is computationally expensive due to iterative denoising. Recent visual-prompt-based methods reduce training cost but still require repeated forward--backward passes through the full frozen network to optimize input-level prompts, resulting in slow inference. In this work, we show that adapting only the decoder is sufficient for effective test-time optimization, as depth foundation models concentrate depth-relevant information within a low-dimensional decoder subspace. Based on this insight, we propose a lightweight test-time adaptation method that updates only this low-dimensional subspace using sparse depth supervision. Our approach achieves state-of-the-art performance, establishing a new Pareto frontier between accuracy and efficiency for test-time adaptation. Extensive experiments on five indoor and outdoor datasets demonstrate consistent improvements over prior methods, highlighting the practicality of fast zero-shot depth completion.