Dark3R: Learning Structure from Motion in the Dark

📄 arXiv: 2603.05330v1 📥 PDF

作者: Andrew Y Guo, Anagh Malik, SaiKiran Tedla, Yutong Dai, Yiqian Qin, Zach Salehe, Benjamin Attal, Sotiris Nousias, Kyros Kutulakos, David B. Lindell

分类: cs.CV

发布日期: 2026-03-05

备注: CVPR 2026, Project Page: https://andrewguo.com/pub/dark3r


💡 一句话要点

Dark3R:提出一种在极低光照下基于运动恢复结构的框架,突破传统方法限制。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 低光照 运动恢复结构 知识蒸馏 三维重建 特征匹配 相机姿态估计 原始图像处理

📋 核心要点

  1. 传统基于特征和学习的SfM方法在极低光照(SNR < -4dB)下失效,无法有效提取特征和估计相机姿态。
  2. Dark3R通过教师-学生蒸馏,将大规模3D基础模型迁移到极低光照环境,提升特征匹配和姿态估计的鲁棒性。
  3. Dark3R仅需噪声-干净图像对训练,无需3D监督,并在新数据集上验证了其在低光照SfM和新视角合成上的SOTA性能。

📝 摘要(中文)

本文提出Dark3R,一个在黑暗中基于运动恢复结构的框架,可以直接处理信噪比低于-4dB的原始图像。在这种极端低光照条件下,传统的基于特征和学习的方法会失效。我们的关键洞察在于,通过教师-学生蒸馏过程,将大规模3D基础模型适应于极端的低光照条件,从而在低光照下实现鲁棒的特征匹配和相机姿态估计。Dark3R不需要3D监督,仅在噪声-干净的原始图像对上进行训练,这些图像对可以直接捕获,也可以使用应用于良好曝光的原始图像的简单泊松-高斯噪声模型合成。为了训练和评估我们的方法,我们引入了一个新的曝光包围数据集,其中包括约42,000张具有地面真实3D注释的多视图原始图像,并且我们证明了Dark3R在低信噪比状态下实现了最先进的运动恢复结构。此外,我们还展示了使用Dark3R预测的姿态和粗到精的辐射场优化程序,在黑暗中实现了最先进的新视角合成。

🔬 方法详解

问题定义:论文旨在解决极低光照条件下(SNR < -4dB)的基于运动恢复结构(Structure from Motion, SfM)问题。现有方法,包括传统的基于特征的方法和基于学习的方法,在极低光照下由于噪声干扰严重,无法有效提取图像特征,导致相机姿态估计精度大幅下降,甚至完全失效。

核心思路:论文的核心思路是通过知识蒸馏,将大规模3D基础模型在正常光照下学习到的先验知识迁移到低光照环境,从而提升模型在噪声环境下的鲁棒性。具体而言,利用在正常光照下训练的3D模型作为教师模型,指导在低光照下训练的学生模型,使得学生模型能够学习到在低光照条件下提取有效特征和估计相机姿态的能力。

技术框架:Dark3R的整体框架包含以下几个主要阶段:1) 数据准备:收集或合成噪声-干净的原始图像对。2) 教师模型:使用预训练的大规模3D模型,例如在正常光照下训练的SfM模型。3) 学生模型:设计一个适用于低光照环境的SfM模型。4) 知识蒸馏:使用教师模型的输出(例如特征描述子、相机姿态)作为监督信号,训练学生模型。5) 姿态优化与三维重建:利用学生模型估计的相机姿态,进行姿态优化和三维重建。

关键创新:Dark3R最重要的创新点在于将知识蒸馏技术应用于低光照SfM问题,利用大规模3D基础模型的先验知识,克服了低光照下特征提取和姿态估计的挑战。与现有方法相比,Dark3R不需要3D监督,仅需噪声-干净图像对即可进行训练,降低了数据收集的成本。此外,Dark3R可以直接处理原始图像,避免了传统方法中图像预处理步骤带来的信息损失。

关键设计:论文的关键设计包括:1) 噪声模型:使用泊松-高斯噪声模型模拟低光照环境下的图像噪声。2) 损失函数:设计合适的损失函数,例如特征匹配损失、姿态估计损失等,用于指导学生模型的训练。3) 网络结构:选择合适的网络结构作为学生模型,例如基于Transformer的特征提取网络,以提升模型对噪声的鲁棒性。4) 数据集:构建了一个包含约42,000张多视图原始图像的曝光包围数据集,用于训练和评估Dark3R的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Dark3R在低信噪比(SNR < -4dB)的SfM任务上取得了state-of-the-art的性能。论文构建了一个包含42,000张多视图原始图像的新数据集,并在该数据集上验证了Dark3R的有效性。实验结果表明,Dark3R能够显著提升在低光照条件下的特征匹配精度和相机姿态估计精度,并实现了高质量的新视角合成。与现有方法相比,Dark3R在低光照SfM任务上取得了显著的性能提升。

🎯 应用场景

Dark3R在安防监控、自动驾驶、机器人导航等领域具有广泛的应用前景。在这些场景中,光照条件往往较差,传统的视觉算法难以有效工作。Dark3R能够在这种极端低光照条件下实现鲁棒的SfM,为这些应用提供可靠的三维感知能力。此外,Dark3R还可以应用于水下成像、医学成像等领域,提升在恶劣光照条件下的成像质量和三维重建精度。

📄 摘要(原文)

We introduce Dark3R, a framework for structure from motion in the dark that operates directly on raw images with signal-to-noise ratios (SNRs) below $-4$ dB -- a regime where conventional feature- and learning-based methods break down. Our key insight is to adapt large-scale 3D foundation models to extreme low-light conditions through a teacher--student distillation process, enabling robust feature matching and camera pose estimation in low light. Dark3R requires no 3D supervision; it is trained solely on noisy--clean raw image pairs, which can be either captured directly or synthesized using a simple Poisson--Gaussian noise model applied to well-exposed raw images. To train and evaluate our approach, we introduce a new, exposure-bracketed dataset that includes $\sim$42,000 multi-view raw images with ground-truth 3D annotations, and we demonstrate that Dark3R achieves state-of-the-art structure from motion in the low-SNR regime. Further, we demonstrate state-of-the-art novel view synthesis in the dark using Dark3R's predicted poses and a coarse-to-fine radiance field optimization procedure.