CT-MVSNet: Efficient Multi-View Stereo with Cross-scale Transformer
作者: Sicheng Wang, Hao Jiang, Lei Xiang
分类: cs.CV
发布日期: 2023-12-14 (更新: 2024-02-02)
备注: Accepted at the 30th International Conference on Multimedia Modeling(MMM'24 Oral)
🔗 代码/项目: GITHUB
💡 一句话要点
提出CT-MVSNet以解决高分辨率深度估计的计算成本问题
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 多视图立体 深度估计 变换器 特征聚合 计算机视觉 三维重建 深度学习
📋 核心要点
- 现有的变换器基础的多视图立体方法在计算成本上存在限制,难以扩展到更高分辨率的深度估计。
- 本文提出了一种跨尺度变换器(CT),通过自适应匹配感知变换器(AMT)和双特征引导聚合(DFGA)来有效处理多尺度特征。
- 在DTU数据集和T&T基准上的实验结果表明,CT-MVSNet在深度估计上取得了显著的性能提升,达到了最先进的水平。
📝 摘要(中文)
近年来,深度多视图立体(MVS)方法广泛将变换器融入级联网络中,以实现高分辨率深度估计,取得了显著成果。然而,现有基于变换器的方法受到计算成本的限制,阻碍了其在更精细阶段的扩展。本文提出了一种新颖的跨尺度变换器(CT),能够在不同阶段处理特征表示而无需额外计算。具体而言,我们引入了一种自适应匹配感知变换器(AMT),在多个尺度上采用不同的交互注意力组合。这种组合策略使我们的网络能够捕捉图像内的上下文信息,并增强图像间的特征关系。此外,我们提出了一种双特征引导聚合(DFGA),将粗略的全局语义信息嵌入到更细的代价体积构建中,以进一步增强全局和局部特征意识。我们还设计了一种特征度量损失(FM Loss),评估变换前后的特征偏差,以减少特征不匹配对深度估计的影响。在DTU数据集和Tanks and Temples(T&T)基准上的大量实验表明,我们的方法达到了最先进的结果。代码可在https://github.com/wscstrive/CT-MVSNet获取。
🔬 方法详解
问题定义:本文旨在解决现有变换器基础的多视图立体方法在高分辨率深度估计中的计算成本问题,导致其难以扩展到更精细的阶段。
核心思路:提出跨尺度变换器(CT),通过自适应匹配感知变换器(AMT)和双特征引导聚合(DFGA)来有效处理不同尺度的特征表示,增强图像间的特征关系。
技术框架:整体架构包括多个模块,首先通过AMT进行特征提取和交互,然后利用DFGA将全局语义信息嵌入到代价体积构建中,最后通过特征度量损失(FM Loss)优化深度估计。
关键创新:最重要的创新在于AMT的设计,使得网络能够在不同尺度上进行特征交互,而无需增加计算负担,这与现有方法的设计思路有本质区别。
关键设计:在网络结构中,AMT采用多种交互注意力组合,DFGA则通过引导聚合来增强特征意识,FM Loss则用于评估特征偏差,确保深度估计的准确性。
📊 实验亮点
在DTU数据集和Tanks and Temples基准上的实验结果显示,CT-MVSNet在深度估计任务中取得了最先进的性能,相较于基线方法,深度估计精度提升了显著的百分比,验证了其有效性和优越性。
🎯 应用场景
该研究的潜在应用领域包括计算机视觉中的三维重建、机器人导航和增强现实等。通过提高深度估计的精度和效率,CT-MVSNet能够在实际场景中提供更高质量的三维信息,推动相关技术的发展和应用。
📄 摘要(原文)
Recent deep multi-view stereo (MVS) methods have widely incorporated transformers into cascade network for high-resolution depth estimation, achieving impressive results. However, existing transformer-based methods are constrained by their computational costs, preventing their extension to finer stages. In this paper, we propose a novel cross-scale transformer (CT) that processes feature representations at different stages without additional computation. Specifically, we introduce an adaptive matching-aware transformer (AMT) that employs different interactive attention combinations at multiple scales. This combined strategy enables our network to capture intra-image context information and enhance inter-image feature relationships. Besides, we present a dual-feature guided aggregation (DFGA) that embeds the coarse global semantic information into the finer cost volume construction to further strengthen global and local feature awareness. Meanwhile, we design a feature metric loss (FM Loss) that evaluates the feature bias before and after transformation to reduce the impact of feature mismatch on depth estimation. Extensive experiments on DTU dataset and Tanks and Temples (T\&T) benchmark demonstrate that our method achieves state-of-the-art results. Code is available at https://github.com/wscstrive/CT-MVSNet.