Reliev3R: Relieving Feed-forward Reconstruction from Multi-View Geometric Annotations

📄 arXiv: 2604.00548v1 📥 PDF

作者: Youyu Chen, Junjun Jiang, Yueru Luo, Kui Jiang, Xianming Liu, Xu Yan, Dave Zhenyu Chen

分类: cs.CV

发布日期: 2026-04-01

备注: Accepted by CVPR2026


💡 一句话要点

Reliev3R:解除前馈重建模型对多视角几何标注的依赖

🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting)

关键词: 前馈重建模型 弱监督学习 多视角几何 相对深度估计 图像稀疏对应 三维重建 几何一致性

📋 核心要点

  1. 现有前馈重建模型过度依赖多视角几何标注,限制了其可扩展性和应用范围。
  2. Reliev3R利用单目相对深度和图像稀疏对应关系,实现弱监督训练,无需昂贵的几何标注。
  3. 实验表明,Reliev3R在更少数据下训练,性能可与全监督模型媲美,降低了3D重建成本。

📝 摘要(中文)

近年来,前馈重建模型(FFRMs)在重建质量和对多个下游任务的适应性方面表现出巨大潜力。然而,过度依赖多视角几何标注,如3D点云图和相机姿态,使得FFRMs的全监督训练方案难以扩展。本文提出了Reliev3R,一种弱监督范式,用于从头开始训练FFRMs,而无需高成本的多视角几何标注。我们的方法摆脱了对几何传感器数据和计算密集型运动结构(SfM)预处理的依赖,直接从单目相对深度和由预训练模型的零样本预测给出的图像稀疏对应关系中提取3D知识。Reliev3R的核心是,我们设计了一个感知歧义的相对深度损失和一个基于三角学的重投影损失,以促进多视角几何一致性的监督。通过使用更少的数据从头开始训练,Reliev3R赶上了其全监督的同类模型,朝着低成本的3D重建监督和可扩展的FFRMs迈出了一步。

🔬 方法详解

问题定义:现有前馈重建模型(FFRMs)的训练严重依赖于多视角几何标注,例如3D点云图和相机姿态。获取这些标注通常需要昂贵的传感器设备和耗时的预处理步骤(如Structure-from-Motion),这限制了FFRMs在更大规模数据集上的应用和推广。因此,如何降低对几何标注的依赖,实现低成本、可扩展的FFRM训练是一个关键问题。

核心思路:Reliev3R的核心思路是利用弱监督学习,从单目图像中提取的相对深度信息和图像稀疏对应关系来训练FFRMs。通过设计合适的损失函数,约束模型学习多视角几何一致性,从而在没有精确3D几何标注的情况下实现高质量的3D重建。这种方法旨在摆脱对昂贵几何传感器的依赖,降低数据获取和预处理的成本。

技术框架:Reliev3R的训练流程主要包括以下几个步骤:1) 使用预训练模型(例如,基于Transformer的深度估计模型)预测单目图像的相对深度图;2) 利用预训练模型提取图像之间的稀疏对应关系;3) 设计一个包含相对深度损失和重投影损失的损失函数,用于约束FFRM的学习过程;4) 使用优化算法(例如,Adam)最小化损失函数,从而训练FFRM。整个框架无需显式的3D几何标注,而是通过弱监督信号来引导模型的学习。

关键创新:Reliev3R的关键创新在于其弱监督训练范式,它摆脱了对多视角几何标注的依赖,而是利用单目相对深度和图像稀疏对应关系作为监督信号。此外,该方法还设计了感知歧义的相对深度损失和基于三角学的重投影损失,以促进多视角几何一致性的学习。这种弱监督方法使得FFRMs的训练更加经济高效,并具有更好的可扩展性。

关键设计:Reliev3R的关键设计包括:1) 相对深度损失:该损失函数用于约束模型预测的相对深度与预训练模型预测的相对深度一致。为了处理相对深度预测中的歧义性,该损失函数采用了一种加权策略,对置信度高的区域赋予更高的权重。2) 重投影损失:该损失函数基于三角学原理,利用图像稀疏对应关系来约束模型学习多视角几何一致性。具体来说,该损失函数计算了将一个视角的3D点重投影到另一个视角时的重投影误差,并将其作为监督信号。3) 网络结构:Reliev3R可以使用各种现有的FFRM网络结构,例如基于MLP或Transformer的网络。该论文没有对网络结构进行特别的修改,而是专注于设计合适的损失函数和训练策略。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Reliev3R在弱监督条件下,仅使用单目相对深度和图像稀疏对应关系进行训练,其性能可以与全监督模型相媲美。这意味着在数据获取成本大幅降低的情况下,仍然可以获得高质量的3D重建结果。实验结果表明,Reliev3R在多个数据集上都取得了良好的性能,证明了其有效性和泛化能力。

🎯 应用场景

Reliev3R具有广泛的应用前景,例如:1) 机器人导航:无需昂贵的激光雷达或深度相机,仅使用单目相机即可实现环境的3D重建和导航;2) 自动驾驶:利用车载摄像头进行场景理解和3D地图构建;3) 虚拟现实/增强现实:为用户提供更真实、沉浸式的3D体验。该研究降低了3D重建的成本和门槛,有望推动相关技术在更多领域得到应用。

📄 摘要(原文)

With recent advances, Feed-forward Reconstruction Models (FFRMs) have demonstrated great potential in reconstruction quality and adaptiveness to multiple downstream tasks. However, the excessive reliance on multi-view geometric annotations, e.g. 3D point maps and camera poses, makes the fully-supervised training scheme of FFRMs difficult to scale up. In this paper, we propose Reliev3R, a weakly-supervised paradigm for training FFRMs from scratch without cost-prohibitive multi-view geometric annotations. Relieving the reliance on geometric sensory data and compute-exhaustive structure-from-motion preprocessing, our method draws 3D knowledge directly from monocular relative depths and image sparse correspondences given by zero-shot predictions of pretrained models. At the core of Reliev3R, we design an ambiguity-aware relative depth loss and a trigonometry-based reprojection loss to facilitate supervision for multi-view geometric consistency. Training from scratch with the less data, Reliev3R catches up with its fully-supervised sibling models, taking a step towards low-cost 3D reconstruction supervisions and scalable FFRMs.