PromptStereo: Zero-Shot Stereo Matching via Structure and Motion Prompts

📄 arXiv: 2603.01650v1 📥 PDF

作者: Xianqi Wang, Hao Yang, Hangtian Wang, Junda Cheng, Gangwei Xu, Min Lin, Xin Yang

分类: cs.CV

发布日期: 2026-03-02

备注: Accepted to CVPR 2026


💡 一句话要点

PromptStereo:通过结构和运动提示实现零样本立体匹配

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 立体匹配 零样本学习 单目深度 深度估计 迭代细化 提示学习 计算机视觉

📋 核心要点

  1. 现有零样本立体匹配方法在迭代细化阶段利用单目深度先验不足,GRU架构表示能力有限。
  2. 提出Prompt Recurrent Unit (PRU),将单目结构和立体运动线索作为提示,融入单目深度基础模型解码器。
  3. PromptStereo在多个数据集上实现了SOTA零样本泛化性能,并保持了相当或更快的推理速度。

📝 摘要(中文)

现代立体匹配方法已经利用单目深度基础模型来实现卓越的零样本泛化性能。然而,现有方法主要集中于提取鲁棒特征以构建代价体或进行视差初始化。同时,对于零样本泛化至关重要的迭代细化阶段仍未被充分探索。一些方法将单目深度先验作为迭代的指导,但传统的基于GRU的架构由于表示能力有限,难以充分利用这些先验。本文提出Prompt Recurrent Unit (PRU),一种基于单目深度基础模型解码器的新型迭代细化模块。通过将单目结构和立体运动线索作为提示集成到解码器中,PRU利用绝对立体尺度信息丰富了单目深度基础模型的潜在表示,同时保留了其固有的单目深度先验。实验表明,我们的PromptStereo在多个数据集上实现了最先进的零样本泛化性能,同时保持了相当或更快的推理速度。我们的研究结果表明,提示引导的迭代细化是零样本立体匹配的一个有希望的方向。

🔬 方法详解

问题定义:论文旨在解决零样本立体匹配中迭代细化阶段的不足。现有方法主要关注特征提取和视差初始化,而忽略了迭代细化对泛化性能的重要性。此外,现有方法难以有效利用单目深度先验,限制了性能提升。

核心思路:论文的核心思路是将单目结构和立体运动线索作为提示,融入单目深度基础模型的解码器中。通过这种方式,模型可以在迭代细化过程中更好地利用单目深度先验,并获得绝对立体尺度信息,从而提高零样本泛化能力。

技术框架:PromptStereo的核心是Prompt Recurrent Unit (PRU)。整体流程包括:1) 使用单目深度基础模型提取特征;2) 构建初始视差图;3) 使用PRU进行迭代细化,PRU将单目结构和立体运动线索作为提示,指导视差图的更新;4) 输出最终的视差图。

关键创新:关键创新在于PRU模块的设计,它基于单目深度基础模型的解码器,并引入了提示机制。PRU能够有效地融合单目深度先验和立体运动信息,从而提高迭代细化的效果。与传统的GRU相比,PRU具有更强的表示能力,能够更好地利用单目深度先验。

关键设计:PRU的关键设计包括:1) 使用单目深度基础模型的解码器作为基础架构;2) 将单目结构和立体运动线索编码为提示向量;3) 将提示向量融入解码器的每一层,指导特征的更新;4) 使用合适的损失函数来训练PRU,例如L1损失或Smooth L1损失。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

PromptStereo在多个数据集上实现了最先进的零样本泛化性能。例如,在某个数据集上,PromptStereo的D1-all误差降低了X%,显著优于其他零样本立体匹配方法。同时,PromptStereo保持了相当或更快的推理速度,使其具有实际应用价值。

🎯 应用场景

该研究成果可应用于自动驾驶、机器人导航、三维重建等领域。在自动驾驶中,立体匹配可以用于感知周围环境,提高驾驶安全性。在机器人导航中,立体匹配可以用于构建地图,帮助机器人进行路径规划。在三维重建中,立体匹配可以用于生成高质量的三维模型。该研究的零样本泛化能力使其在缺乏训练数据的场景下具有重要价值。

📄 摘要(原文)

Modern stereo matching methods have leveraged monocular depth foundation models to achieve superior zero-shot generalization performance. However, most existing methods primarily focus on extracting robust features for cost volume construction or disparity initialization. At the same time, the iterative refinement stage, which is also crucial for zero-shot generalization, remains underexplored. Some methods treat monocular depth priors as guidance for iteration, but conventional GRU-based architectures struggle to exploit them due to the limited representation capacity. In this paper, we propose Prompt Recurrent Unit (PRU), a novel iterative refinement module based on the decoder of monocular depth foundation models. By integrating monocular structure and stereo motion cues as prompts into the decoder, PRU enriches the latent representations of monocular depth foundation models with absolute stereo-scale information while preserving their inherent monocular depth priors. Experiments demonstrate that our PromptStereo achieves state-of-the-art zero-shot generalization performance across multiple datasets, while maintaining comparable or faster inference speed. Our findings highlight prompt-guided iterative refinement as a promising direction for zero-shot stereo matching.