BRIDGE -- Building Reinforcement-Learning Depth-to-Image Data Generation Engine for Monocular Depth Estimation

📄 arXiv: 2509.25077v2 📥 PDF

作者: Dingning Liu, Haoyu Guo, Jingyi Zhou, Tong He

分类: cs.CV, cs.AI

发布日期: 2025-09-29 (更新: 2025-09-30)

备注: 20 pages, 7 figures

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出基于强化学习的深度图到图像生成引擎BRIDGE,用于单目深度估计。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 单目深度估计 强化学习 数据生成 深度图到图像 混合监督 计算机视觉 合成数据

📋 核心要点

  1. 传统单目深度估计方法受限于数据量和数据质量,难以保证模型的鲁棒性。
  2. BRIDGE利用强化学习优化深度图到图像的生成过程,合成大规模、高质量的训练数据。
  3. 通过混合监督策略,结合伪标签和真实深度信息,提升模型在复杂场景下的深度估计精度。

📝 摘要(中文)

单目深度估计(MDE)是计算机视觉的基础任务。传统方法受限于数据稀缺和质量,阻碍了其鲁棒性。为了克服这个问题,我们提出了BRIDGE,一个基于强化学习优化的深度图到图像(D2I)生成框架,该框架从不同的源深度图中合成超过2000万张逼真且几何精确的RGB图像,每张图像都与真实的深度信息配对。然后,我们使用该数据集训练深度估计模型,采用混合监督策略,将教师伪标签与真实深度相结合,以进行全面而鲁棒的训练。这种创新的数据生成和训练范式使BRIDGE在规模和领域多样性方面取得了突破,在定量和复杂场景细节捕捉方面始终优于现有的最先进方法,从而培养了通用且鲁棒的深度特征。

🔬 方法详解

问题定义:单目深度估计旨在从单张RGB图像中预测场景的深度信息。现有方法面临的主要挑战是缺乏足够数量和足够多样性的训练数据,导致模型泛化能力不足,难以处理真实世界复杂场景。

核心思路:BRIDGE的核心思路是利用强化学习自动生成大规模、高质量的合成训练数据。通过优化深度图到图像的转换过程,生成逼真且具有几何一致性的RGB图像,并配以精确的深度图作为ground truth。这样可以有效解决数据稀缺问题,并提升模型的鲁棒性。

技术框架:BRIDGE框架主要包含两个阶段:数据生成阶段和模型训练阶段。在数据生成阶段,利用强化学习智能体控制深度图到图像的转换过程,生成RGB图像。在模型训练阶段,使用生成的合成数据训练深度估计模型,并采用混合监督策略,同时利用真实深度和教师模型的伪标签进行监督。

关键创新:BRIDGE的关键创新在于利用强化学习自动优化数据生成过程。传统的合成数据生成方法通常依赖人工设计的规则或先验知识,难以生成足够逼真和多样的数据。而BRIDGE通过强化学习,可以根据深度估计模型的反馈,自动调整数据生成策略,从而生成更适合模型训练的数据。

关键设计:在强化学习方面,智能体的奖励函数设计至关重要,需要综合考虑图像的逼真度、几何一致性以及深度估计模型的性能。在模型训练方面,混合监督策略通过结合真实深度和伪标签,可以有效提升模型的泛化能力和鲁棒性。具体的网络结构和损失函数选择取决于具体的深度估计模型。

📊 实验亮点

BRIDGE在单目深度估计任务上取得了显著的性能提升。通过合成超过2000万张高质量的训练图像,BRIDGE在多个数据集上超越了现有的state-of-the-art方法。实验结果表明,BRIDGE不仅在定量指标上有所提升,而且在复杂场景的细节捕捉方面也表现出色,能够生成更准确、更精细的深度图。

🎯 应用场景

BRIDGE技术可广泛应用于自动驾驶、机器人导航、增强现实等领域。高质量的单目深度估计是这些应用的关键技术之一。通过生成大规模、高质量的训练数据,BRIDGE可以有效提升深度估计模型的性能,从而推动这些应用的发展。此外,该方法还可以应用于其他计算机视觉任务,例如三维重建、场景理解等。

📄 摘要(原文)

Monocular Depth Estimation (MDE) is a foundational task for computer vision. Traditional methods are limited by data scarcity and quality, hindering their robustness. To overcome this, we propose BRIDGE, an RL-optimized depth-to-image (D2I) generation framework that synthesizes over 20M realistic and geometrically accurate RGB images, each intrinsically paired with its ground truth depth, from diverse source depth maps. Then we train our depth estimation model on this dataset, employing a hybrid supervision strategy that integrates teacher pseudo-labels with ground truth depth for comprehensive and robust training. This innovative data generation and training paradigm enables BRIDGE to achieve breakthroughs in scale and domain diversity, consistently outperforming existing state-of-the-art approaches quantitatively and in complex scene detail capture, thereby fostering general and robust depth features. Code and models are available at https://dingning-liu.github.io/bridge.github.io/.