Any Resolution Any Geometry: From Multi-View To Multi-Patch

📄 arXiv: 2603.03026v1 📥 PDF

作者: Wenqing Cui, Zhenyu Li, Mykola Lavreniuk, Jian Shi, Ramzi Idoughi, Xiangjun Tang, Peter Wonka

分类: cs.CV

发布日期: 2026-03-03

备注: Project webpage: https://github.com/Dreamaker-MrC/Any-Resolution-Any-Geometry


💡 一句话要点

提出超高分辨率几何Transformer,用于单目高分辨率深度和法向量联合估计。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 深度估计 法向量估计 Transformer网络 多视角几何 高分辨率图像 几何推理 跨域泛化

📋 核心要点

  1. 现有方法难以在高分辨率下同时保持局部细节和全局一致性,限制了3D场景理解的精度。
  2. URGT将高分辨率图像分割成块,利用预训练模型的先验信息,并通过跨块注意力机制实现全局一致性。
  3. 实验表明,URGT在深度和法向量估计上均达到SOTA,显著降低了误差,并提升了几何形状的清晰度和稳定性。

📝 摘要(中文)

本文提出了一种超高分辨率几何Transformer (URGT),它将视觉几何基础Transformer (VGGT) 改编成一个统一的多块Transformer,用于单目高分辨率深度和法向量联合估计。该方法将单个高分辨率图像分割成多个图像块,并使用预训练模型提供的粗略深度和法向量先验进行增强,然后在单个前向传递中联合处理这些图像块,以预测精细化的几何输出。通过跨块注意力机制来保证全局一致性,从而实现长程几何推理和信息在共享骨干网络内的无缝传播。为了进一步增强空间鲁棒性,引入了一种GridMix块采样策略,该策略在训练期间以概率方式采样网格配置,从而提高块间一致性和泛化能力。该方法在UnrealStereo4K数据集上取得了最先进的结果,联合改进了深度和法向量估计,将AbsRel从0.0582降低到0.0291,RMSE从2.17降低到1.31,并将平均角度误差从23.36度降低到18.51度,同时生成更清晰、更稳定的几何形状。所提出的多块框架还展示了强大的零样本和跨域泛化能力,并能有效地扩展到非常高的分辨率,为高质量几何细化提供了一种高效且可扩展的解决方案。

🔬 方法详解

问题定义:论文旨在解决单目图像高分辨率深度和法向量联合估计问题。现有方法在高分辨率下难以兼顾局部细节的精细度和全局几何的一致性,导致估计结果模糊或失真。此外,现有方法难以有效利用图像的上下文信息进行推理,限制了性能的进一步提升。

核心思路:论文的核心思路是将高分辨率图像分割成多个图像块,并利用预训练模型提供的粗略深度和法向量作为先验信息,然后通过一个统一的多块Transformer网络对这些图像块进行联合处理。通过跨块注意力机制,网络可以学习图像块之间的依赖关系,从而实现全局一致性的几何推理。

技术框架:URGT (Ultra Resolution Geometry Transformer) 的整体框架包括以下几个主要模块:1) 图像块分割模块:将高分辨率图像分割成多个重叠的图像块。2) 先验信息增强模块:利用预训练的深度和法向量估计模型为每个图像块提供粗略的先验信息。3) 多块Transformer网络:使用改进的VGGT (Visual Geometry Grounded Transformer) 作为骨干网络,对所有图像块进行联合处理,并通过跨块注意力机制实现全局信息交互。4) 几何形状细化模块:将Transformer网络的输出进行解码,得到精细化的深度和法向量估计结果。

关键创新:论文的关键创新在于提出了一个统一的多块Transformer框架,可以有效地处理高分辨率图像,并在深度和法向量估计之间实现互补。此外,GridMix块采样策略通过在训练期间随机采样不同的网格配置,增强了模型的空间鲁棒性和泛化能力。

关键设计:GridMix策略是关键设计之一,它在训练时以一定概率混合不同的网格配置,迫使模型学习对不同块排列方式的鲁棒性。损失函数方面,论文可能采用了深度和法向量估计的常用损失函数,例如L1损失、L2损失或角度损失等。具体的网络结构细节(如Transformer的层数、注意力头的数量等)可能在论文中有更详细的描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

URGT在UnrealStereo4K数据集上取得了显著的性能提升,深度估计的AbsRel误差从0.0582降低到0.0291,RMSE从2.17降低到1.31,法向量估计的平均角度误差从23.36度降低到18.51度。这些结果表明,URGT能够生成更准确、更清晰、更稳定的几何形状,并在高分辨率场景下表现出优越的性能。

🎯 应用场景

该研究成果可应用于自动驾驶、机器人导航、三维重建、虚拟现实等领域。高质量的深度和法向量估计对于场景理解、物体识别和运动规划至关重要。该方法能够处理高分辨率图像,使其在需要精细几何信息的应用中具有优势,例如文物数字化、医学影像分析等。

📄 摘要(原文)

Joint estimation of surface normals and depth is essential for holistic 3D scene understanding, yet high-resolution prediction remains difficult due to the trade-off between preserving fine local detail and maintaining global consistency. To address this challenge, we propose the Ultra Resolution Geometry Transformer (URGT), which adapts the Visual Geometry Grounded Transformer (VGGT) into a unified multi-patch transformer for monocular high-resolution depth--normal estimation. A single high-resolution image is partitioned into patches that are augmented with coarse depth and normal priors from pre-trained models, and jointly processed in a single forward pass to predict refined geometric outputs. Global coherence is enforced through cross-patch attention, which enables long-range geometric reasoning and seamless propagation of information across patches within a shared backbone. To further enhance spatial robustness, we introduce a GridMix patch sampling strategy that probabilistically samples grid configurations during training, improving inter-patch consistency and generalization. Our method achieves state-of-the-art results on UnrealStereo4K, jointly improving depth and normal estimation, reducing AbsRel from 0.0582 to 0.0291, RMSE from 2.17 to 1.31, and lowering mean angular error from 23.36 degrees to 18.51 degrees, while producing sharper and more stable geometry. The proposed multi-patch framework also demonstrates strong zero-shot and cross-domain generalization and scales effectively to very high resolutions, offering an efficient and extensible solution for high-quality geometry refinement.