RePer-360: Releasing Perspective Priors for 360$^\circ$ Depth Estimation via Self-Modulation
作者: Cheng Guan, Chunyu Lin, Zhijie Shen, Junsong Zhang, Jiyuan Wang
分类: cs.CV
发布日期: 2026-03-06
💡 一句话要点
RePer-360:通过自调制释放透视先验,用于360°深度估计
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 360°深度估计 全景图像 自调制 透视先验 领域自适应
📋 核心要点
- 现有深度模型在透视图像上表现良好,但在360°全景图像上泛化能力差,主要原因是透视和全景图像的几何差异。
- RePer-360通过自调制框架,利用几何对齐引导模块和自条件AdaLN-Zero机制,在保留预训练透视先验的同时,适应全景域。
- 实验结果表明,RePer-360仅使用1%的训练数据,性能超越标准微调方法,并在相同训练条件下,RMSE降低约20%。
📝 摘要(中文)
现有的深度基础模型在透视图像上表现出色,但由于透视和全景域之间的几何差异,泛化到360°图像时性能较差。此外,完全微调这些模型通常需要大量的全景数据。为了解决这个问题,我们提出了RePer-360,一个感知失真的自调制框架,用于单目全景深度估计,该框架在适应深度基础模型的同时,保留了强大的预训练透视先验。具体来说,我们设计了一个轻量级的几何对齐引导模块,从两个互补的投影(即ERP和CP)中导出调制信号,并使用它来引导模型适应全景域,而不会覆盖其预训练的透视知识。我们进一步引入了一种自条件AdaLN-Zero机制,产生像素级的缩放因子,以减少透视和全景域之间的特征分布差距。此外,一个立方体图域一致性损失进一步提高了训练的稳定性和跨投影对齐。通过将重点从互补投影融合转移到保留预训练透视先验下的全景域适应,RePer-360超越了标准微调方法,同时仅使用1%的训练数据。在相同的域内训练设置下,它进一步实现了约20%的RMSE改进。
🔬 方法详解
问题定义:现有深度估计模型在透视图像上表现良好,但直接应用于360°全景图像时性能显著下降。这是因为透视图像和全景图像的几何结构存在根本差异,导致模型无法有效利用在透视图像上学习到的先验知识。此外,从头开始训练或完全微调这些模型需要大量的全景图像数据,这在实际应用中往往难以满足。
核心思路:RePer-360的核心思路是在保留预训练的透视先验知识的前提下,使模型能够适应全景图像的几何特性。通过引入自调制机制,利用全景图像的几何信息来引导模型,使其在不丢失原有透视知识的情况下,学习到全景图像的深度信息。这种方法避免了从头开始训练或完全微调模型,从而大大减少了对全景图像数据的需求。
技术框架:RePer-360的主要框架包括以下几个模块:1) 几何对齐引导模块:从ERP和CP两种互补投影中提取几何信息,生成调制信号。2) 自条件AdaLN-Zero机制:生成像素级的缩放因子,用于减少透视和全景域之间的特征分布差异。3) 立方体图域一致性损失:提高训练的稳定性和跨投影对齐。整体流程是,首先利用几何对齐引导模块提取调制信号,然后通过自条件AdaLN-Zero机制调整特征分布,最后利用立方体图域一致性损失进行优化。
关键创新:RePer-360的关键创新在于其自调制框架,该框架能够在保留预训练透视先验的同时,有效地适应全景图像的几何特性。与传统的微调方法相比,RePer-360不需要大量的全景图像数据,并且能够更好地利用预训练模型的知识。此外,自条件AdaLN-Zero机制和立方体图域一致性损失也进一步提高了模型的性能和稳定性。
关键设计:几何对齐引导模块利用ERP和CP两种投影的互补信息,通过一个轻量级的网络结构生成调制信号。自条件AdaLN-Zero机制通过一个小型网络预测像素级的缩放因子,并将其应用于特征图。立方体图域一致性损失鼓励模型在不同的立方体图面上产生一致的深度估计。这些设计都旨在使模型能够更好地适应全景图像的几何特性,并提高深度估计的准确性和稳定性。
🖼️ 关键图片
📊 实验亮点
RePer-360在360°深度估计任务上取得了显著的性能提升。在仅使用1%的训练数据的情况下,RePer-360超越了标准微调方法。在相同的域内训练设置下,RePer-360的RMSE指标降低了约20%。这些结果表明,RePer-360能够有效地利用预训练的透视先验知识,并适应全景图像的几何特性。
🎯 应用场景
RePer-360在虚拟现实、增强现实、自动驾驶、机器人导航等领域具有广泛的应用前景。它可以用于生成高质量的360°深度图,从而为这些应用提供更准确的环境感知和场景理解能力。此外,该方法可以减少对大量全景数据的依赖,降低了模型训练的成本,加速了相关技术的落地。
📄 摘要(原文)
Recent depth foundation models trained on perspective imagery achieve strong performance, yet generalize poorly to 360$^\circ$ images due to the substantial geometric discrepancy between perspective and panoramic domains. Moreover, fully fine-tuning these models typically requires large amounts of panoramic data. To address this issue, we propose RePer-360, a distortion-aware self-modulation framework for monocular panoramic depth estimation that adapts depth foundation models while preserving powerful pretrained perspective priors. Specifically, we design a lightweight geometry-aligned guidance module to derive a modulation signal from two complementary projections (i.e., ERP and CP) and use it to guide the model toward the panoramic domain without overwriting its pretrained perspective knowledge. We further introduce a Self-Conditioned AdaLN-Zero mechanism that produces pixel-wise scaling factors to reduce the feature distribution gap between the perspective and panoramic domains. In addition, a cubemap-domain consistency loss further improves training stability and cross-projection alignment. By shifting the focus from complementary-projection fusion to panoramic domain adaptation under preserved pretrained perspective priors, RePer-360 surpasses standard fine-tuning methods while using only 1\% of the training data. Under the same in-domain training setting, it further achieves an approximately 20\% improvement in RMSE. Code will be released upon acceptance.