XD-RCDepth: Lightweight Radar-Camera Depth Estimation with Explainability-Aligned and Distribution-Aware Distillation

📄 arXiv: 2510.13565v1 📥 PDF

作者: Huawei Sun, Zixu Wang, Xiangyuan Peng, Julius Ott, Georg Stettinger, Lorenzo Servadei, Robert Wille

分类: cs.CV

发布日期: 2025-10-15

备注: Submitted to ICASSP 2026


💡 一句话要点

XD-RCDepth:面向自动驾驶,提出轻量级雷达-相机深度估计与可解释性对齐的知识蒸馏方法

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 雷达相机融合 深度估计 知识蒸馏 轻量化模型 可解释性 自动驾驶 多模态学习

📋 核心要点

  1. 现有雷达-相机深度估计方法在轻量化和可解释性方面存在不足,难以兼顾精度与效率。
  2. XD-RCDepth通过可解释性对齐和深度分布蒸馏,将教师网络的知识迁移到轻量级学生网络。
  3. 实验表明,该方法在保持精度的同时,显著降低了模型参数量,并在多个数据集上取得了优异的性能。

📝 摘要(中文)

深度估计是自动驾驶的核心问题。雷达-相机融合通过提供互补的几何线索,增强了在恶劣条件下的鲁棒性。本文提出了XD-RCDepth,一种轻量级架构,相对于最先进的轻量级基线,参数量减少了29.7%,同时保持了相当的精度。为了在压缩下保持性能并增强可解释性,我们引入了两种知识蒸馏策略:一种是可解释性对齐的蒸馏,将教师网络的显著性结构传递给学生网络;另一种是深度分布蒸馏,将深度回归重铸为离散bin上的软分类。这些组件共同作用,与直接训练相比,MAE降低了7.97%,并在nuScenes和ZJU-4DRadarCam数据集上实现了具有实时效率的竞争性精度。

🔬 方法详解

问题定义:论文旨在解决雷达-相机融合的深度估计问题,尤其关注如何在保持精度的前提下,降低模型复杂度,并提高模型的可解释性。现有方法通常参数量较大,难以部署在资源受限的自动驾驶平台上,同时缺乏对模型预测结果的解释性分析。

核心思路:论文的核心思路是利用知识蒸馏技术,将一个性能较好的教师网络的知识迁移到一个轻量级的学生网络。为了提高学生网络的可解释性和在压缩后的性能,论文提出了两种新的蒸馏策略:可解释性对齐蒸馏和深度分布蒸馏。

技术框架:XD-RCDepth的整体框架包含一个教师网络和一个学生网络。教师网络可以是任何高性能的雷达-相机深度估计模型。学生网络是一个轻量级的模型,旨在模仿教师网络的行为。训练过程包括两个阶段:首先训练教师网络,然后使用提出的蒸馏策略训练学生网络。

关键创新:论文的关键创新在于提出了两种新的知识蒸馏策略: 1. 可解释性对齐蒸馏:通过最小化教师网络和学生网络的显著性图之间的差异,使学生网络学习到教师网络关注的区域,从而提高学生网络的可解释性。 2. 深度分布蒸馏:将深度回归问题转化为离散bin上的软分类问题,通过最小化教师网络和学生网络的深度分布之间的差异,使学生网络学习到教师网络的深度预测分布,从而提高学生网络的精度。

关键设计: 1. 可解释性对齐蒸馏损失函数:使用KL散度来衡量教师网络和学生网络的显著性图之间的差异。 2. 深度分布蒸馏损失函数:使用交叉熵损失来衡量教师网络和学生网络的深度分布之间的差异。 3. 网络结构:学生网络采用轻量级的卷积神经网络结构,以减少参数量和计算复杂度。 4. 深度离散化:将深度范围划分为多个离散的bin,并将深度回归问题转化为多分类问题。

📊 实验亮点

XD-RCDepth在nuScenes和ZJU-4DRadarCam数据集上进行了评估。实验结果表明,相对于最先进的轻量级基线,XD-RCDepth的参数量减少了29.7%,同时保持了相当的精度。通过可解释性对齐和深度分布蒸馏,MAE降低了7.97%,并在两个数据集上实现了具有实时效率的竞争性精度。

🎯 应用场景

该研究成果可应用于自动驾驶、机器人导航等领域,尤其适用于资源受限的边缘计算平台。通过轻量化的模型设计和知识蒸馏技术,能够在保证精度的前提下,降低计算成本,提高部署效率,并增强模型的可解释性,从而提升系统的安全性和可靠性。

📄 摘要(原文)

Depth estimation remains central to autonomous driving, and radar-camera fusion offers robustness in adverse conditions by providing complementary geometric cues. In this paper, we present XD-RCDepth, a lightweight architecture that reduces the parameters by 29.7% relative to the state-of-the-art lightweight baseline while maintaining comparable accuracy. To preserve performance under compression and enhance interpretability, we introduce two knowledge-distillation strategies: an explainability-aligned distillation that transfers the teacher's saliency structure to the student, and a depth-distribution distillation that recasts depth regression as soft classification over discretized bins. Together, these components reduce the MAE compared with direct training with 7.97% and deliver competitive accuracy with real-time efficiency on nuScenes and ZJU-4DRadarCam datasets.