Global Regulation and Excitation via Attention Tuning for Stereo Matching

📄 arXiv: 2509.15891v1 📥 PDF

作者: Jiahao Li, Xinhong Chen, Zhengmin Jiang, Qian Zhou, Yung-Hui Li, Jianping Wang

分类: cs.CV

发布日期: 2025-09-19

备注: International Conference on Computer Vision (ICCV 2025)

🔗 代码/项目: GITHUB


💡 一句话要点

提出GREAT框架,通过注意力机制增强立体匹配全局上下文和几何信息,提升病态区域匹配精度。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 立体匹配 注意力机制 全局上下文 深度估计 代价体 病态区域 迭代优化

📋 核心要点

  1. 现有立体匹配方法在病态区域表现不佳,原因是缺乏全局上下文和几何信息,难以进行有效的迭代优化。
  2. GREAT框架通过空间、匹配和体素注意力模块,分别捕获空间维度和极线上的全局上下文,并构建更鲁棒的代价体。
  3. 实验表明,GREAT框架能显著提升现有立体匹配方法在病态区域的性能,并在多个数据集上取得领先结果。

📝 摘要(中文)

本文提出了一种名为“基于注意力调整的全局调节与激励”(GREAT)的框架,旨在解决立体匹配算法在遮挡、无纹理或重复图案等病态区域表现不佳的问题。这些区域的挑战源于缺乏有效的迭代细化所需的全局上下文和几何信息。GREAT框架包含三个注意力模块:空间注意力(SA)捕获空间维度内的全局上下文;匹配注意力(MA)提取极线上的全局上下文;体素注意力(VA)与SA和MA协同工作,构建更鲁棒的、由全局上下文和几何细节激励的代价体。该框架可集成到现有的迭代立体匹配方法中,并经验证具有优越的性能。GREAT-IGEV在Scene Flow测试集、KITTI 2015和ETH3D排行榜上均排名第一,并在Middlebury基准测试中排名第二。

🔬 方法详解

问题定义:现有基于迭代的立体匹配算法,如RAFT-Stereo和IGEV-Stereo,在遮挡、无纹理、重复纹理等病态区域表现不佳。这些方法缺乏足够的全局上下文信息和几何约束,导致迭代优化过程容易陷入局部最优,无法得到准确的视差估计。因此,如何有效地融入全局信息,提升算法在病态区域的鲁棒性,是本文要解决的关键问题。

核心思路:本文的核心思路是通过注意力机制来增强立体匹配算法对全局上下文和几何信息的感知能力。具体来说,通过设计不同的注意力模块,分别在空间维度和极线方向上提取全局信息,并利用这些信息来调节和激励代价体的构建过程,从而提高算法在病态区域的匹配精度。

技术框架:GREAT框架主要包含三个注意力模块:空间注意力(SA)、匹配注意力(MA)和体素注意力(VA)。首先,SA模块用于捕获图像在空间维度上的全局上下文信息。然后,MA模块沿着极线方向提取全局上下文信息,关注左右图像之间的匹配关系。最后,VA模块结合SA和MA的输出,对代价体进行调节和激励,从而构建一个更鲁棒的代价体。该框架可以灵活地集成到现有的迭代立体匹配算法中。

关键创新:GREAT框架的关键创新在于其全局调节和激励机制。与传统的局部匹配方法不同,GREAT框架通过注意力机制显式地建模了全局上下文信息,并利用这些信息来指导代价体的构建过程。这种全局建模方式能够有效地缓解病态区域带来的歧义性,提高匹配的准确性。此外,三个注意力模块的设计也充分考虑了立体匹配的特点,分别从空间、匹配和体素三个维度提取全局信息。

关键设计:SA模块采用标准的自注意力机制,用于捕获图像在空间维度上的长程依赖关系。MA模块则设计了一种特殊的注意力机制,用于沿着极线方向提取全局上下文信息。VA模块则通过一个卷积神经网络来实现,其输入是SA和MA的输出,输出是对代价体的调节和激励信号。损失函数方面,采用标准的L1损失或Smooth L1损失来衡量预测视差与真实视差之间的差异。

📊 实验亮点

GREAT框架在多个数据集上取得了显著的性能提升。例如,应用于IGEV-Stereo后,GREAT-IGEV在Scene Flow测试集、KITTI 2015和ETH3D排行榜上均排名第一,并在Middlebury基准测试中排名第二。这些结果表明,GREAT框架能够有效地提升现有立体匹配算法的性能,尤其是在病态区域。

🎯 应用场景

该研究成果可广泛应用于自动驾驶、机器人导航、三维重建等领域。在自动驾驶中,精确的深度估计对于环境感知至关重要,尤其是在复杂和具有挑战性的场景中。该方法能够提高深度估计的准确性和鲁棒性,从而提升自动驾驶系统的安全性。在机器人导航和三维重建中,该方法可以提供更精确的三维信息,帮助机器人更好地理解周围环境,并实现更精确的三维建模。

📄 摘要(原文)

Stereo matching achieves significant progress with iterative algorithms like RAFT-Stereo and IGEV-Stereo. However, these methods struggle in ill-posed regions with occlusions, textureless, or repetitive patterns, due to a lack of global context and geometric information for effective iterative refinement. To enable the existing iterative approaches to incorporate global context, we propose the Global Regulation and Excitation via Attention Tuning (GREAT) framework which encompasses three attention modules. Specifically, Spatial Attention (SA) captures the global context within the spatial dimension, Matching Attention (MA) extracts global context along epipolar lines, and Volume Attention (VA) works in conjunction with SA and MA to construct a more robust cost-volume excited by global context and geometric details. To verify the universality and effectiveness of this framework, we integrate it into several representative iterative stereo-matching methods and validate it through extensive experiments, collectively denoted as GREAT-Stereo. This framework demonstrates superior performance in challenging ill-posed regions. Applied to IGEV-Stereo, among all published methods, our GREAT-IGEV ranks first on the Scene Flow test set, KITTI 2015, and ETH3D leaderboards, and achieves second on the Middlebury benchmark. Code is available at https://github.com/JarvisLee0423/GREAT-Stereo.