CoopDiff: A Diffusion-Guided Approach for Cooperation under Corruptions

📄 arXiv: 2603.01688v1 📥 PDF

作者: Gong Chen, Chaokun Zhang, Pengcheng Lv

分类: cs.CV

发布日期: 2026-03-02

备注: Accepted by CVPR26


💡 一句话要点

CoopDiff:基于扩散模型的协同感知框架,提升在多种退化条件下的鲁棒性

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 协同感知 扩散模型 鲁棒性 多智能体系统 退化建模

📋 核心要点

  1. 现有协同感知方法在真实场景中面临各种退化带来的鲁棒性和泛化性挑战。
  2. CoopDiff利用扩散模型的去噪能力,通过教师-学生框架缓解协同感知中的退化问题。
  3. 实验表明,CoopDiff在多退化基准测试中显著优于现有方法,并实现了精度和效率的平衡。

📝 摘要(中文)

协同感知通过智能体间的信息共享来扩展覆盖范围并提升场景理解能力。然而,现实场景中各种不可预测的退化会削弱其鲁棒性和泛化性。为了应对这些挑战,我们提出了CoopDiff,一个基于扩散的协同感知框架,通过去噪机制来缓解退化。CoopDiff采用教师-学生范式:质量感知教师执行体素级早期融合,利用感兴趣质量加权和语义引导,然后通过扩散去噪器生成干净的监督特征。双分支扩散学生首先在编码中分离自我和协同流,以重建教师的干净目标。然后,自我引导交叉注意力机制通过自适应地整合自我和协同特征,促进退化下的平衡解码。我们在两个构建的多退化基准OPV2Vn和DAIR-V2Xn上评估CoopDiff,每个基准包含六种退化类型,包括环境和传感器级别的失真。受益于扩散的固有去噪特性,CoopDiff在所有退化类型上始终优于现有方法,并降低了相对退化误差。此外,它还在精度和推理效率之间提供了可调节的平衡。

🔬 方法详解

问题定义:协同感知旨在通过多智能体的信息共享来提升环境感知能力。然而,现实世界中存在各种各样的环境和传感器退化,例如噪声、遮挡、天气变化等,这些退化会严重影响协同感知的性能,现有方法难以有效应对这些复杂的退化情况。

核心思路:CoopDiff的核心思路是利用扩散模型的强大去噪能力,将退化后的协同感知特征恢复到干净状态,从而提升协同感知的鲁棒性。通过构建一个教师-学生框架,教师网络负责生成干净的监督信号,学生网络则学习如何从退化的输入中重建这些干净的信号。

技术框架:CoopDiff采用教师-学生框架。教师网络包含一个质量感知的早期融合模块,用于融合来自不同智能体的特征,并利用感兴趣质量加权和语义引导来提升融合效果。然后,一个扩散去噪器被用于生成干净的监督特征。学生网络采用双分支结构,分别处理自我和协同特征,并通过一个自我引导的交叉注意力机制来平衡两者之间的信息。

关键创新:CoopDiff的关键创新在于将扩散模型引入到协同感知中,并利用其去噪能力来缓解退化带来的影响。此外,自我引导的交叉注意力机制能够自适应地整合自我和协同特征,从而在退化条件下实现更鲁棒的感知。

关键设计:教师网络中的质量感知融合模块使用感兴趣质量加权来突出重要区域的特征,并利用语义引导来提升特征的语义一致性。学生网络中的双分支结构能够更好地分离自我和协同特征,从而方便后续的融合。自我引导的交叉注意力机制通过计算自我特征和协同特征之间的注意力权重,来动态地调整两者之间的贡献。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CoopDiff在OPV2Vn和DAIR-V2Xn两个多退化基准测试中取得了显著的性能提升。实验结果表明,CoopDiff在所有退化类型上都优于现有方法,并降低了相对退化误差。例如,在某些退化情况下,CoopDiff的性能提升幅度超过10%。此外,CoopDiff还提供了精度和推理效率之间的可调节平衡。

🎯 应用场景

CoopDiff在自动驾驶、智能交通等领域具有广泛的应用前景。它可以提升车辆在恶劣天气、传感器故障等情况下的感知能力,从而提高驾驶安全性。此外,该方法还可以应用于机器人协同作业、智能安防等领域,提升多智能体系统的整体性能。

📄 摘要(原文)

Cooperative perception lets agents share information to expand coverage and improve scene understanding. However, in real-world scenarios, diverse and unpredictable corruptions undermine its robustness and generalization. To address these challenges, we introduce CoopDiff, a diffusion-based cooperative perception framework that mitigates corruptions via a denoising mechanism. CoopDiff adopts a teacher-student paradigm: the Quality-Aware Teacher performs voxel-level early fusion with Quality of Interest weighting and semantic guidance, then produces clean supervision features via a diffusion denoiser. The Dual-Branch Diffusion Student first separates ego and cooperative streams in encoding to reconstruct the teacher's clean targets. And then, an Ego-Guided Cross-Attention mechanism facilitates balanced decoding under degradation by adaptively integrating ego and cooperative features. We evaluate CoopDiff on two constructed multi-degradation benchmarks, OPV2Vn and DAIR-V2Xn, each incorporating six corruption types, including environmental and sensor-level distortions. Benefiting from the inherent denoising properties of diffusion, CoopDiff consistently outperforms prior methods across all degradation types and lowers the relative corruption error. Furthermore, it offers a tunable balance between precision and inference efficiency.