CATNet: Collaborative Alignment and Transformation Network for Cooperative Perception

📄 arXiv: 2603.05255v1 📥 PDF

作者: Gong Chen, Chaokun Zhang, Tao Tang, Pengcheng Lv, Feng Li, Xin Xie

分类: cs.CV

发布日期: 2026-03-05

备注: Accepted by CVPR26


💡 一句话要点

提出CATNet,解决协同感知中时延和噪声干扰问题,提升复杂交通场景下的感知性能。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 协同感知 时间延迟补偿 噪声抑制 特征对齐 自适应特征选择

📋 核心要点

  1. 现有协同感知方法难以有效处理多智能体系统中的时间延迟和噪声干扰,导致感知性能下降。
  2. CATNet通过时空循环同步、小波增强去噪和自适应特征选择,实现对异步特征流的对齐、噪声抑制和关键特征提取。
  3. 实验结果表明,CATNet在复杂交通场景下显著优于现有方法,验证了其鲁棒性和适应性。

📝 摘要(中文)

协同感知通过整合来自不同智能体的互补信息,显著增强了场景理解能力。然而,现有研究常常忽略了真实世界多源数据集成中固有的关键挑战,特别是高时间延迟和多源噪声。为了解决这些实际限制,我们提出了协同对齐和转换网络(CATNet),这是一个自适应补偿框架,可以解决多智能体系统中的时间延迟和噪声干扰。我们的主要创新可以概括为三个方面。首先,我们引入了时空循环同步(STSync),它通过相邻帧差分建模来对齐异步特征流,从而建立时空统一的表示空间。其次,我们设计了双分支小波增强去噪器(WTDen),它可以抑制全局噪声并重建对齐表示中的局部特征失真。第三,我们构建了一个自适应特征选择器(AdpSel),它可以动态地关注关键的感知特征,以实现鲁棒的融合。在多个数据集上的大量实验表明,CATNet在复杂的交通条件下始终优于现有方法,证明了其卓越的鲁棒性和适应性。

🔬 方法详解

问题定义:现有协同感知方法在处理真实场景下的多智能体数据时,面临着时间延迟和噪声干扰两大挑战。时间延迟导致不同智能体感知到的信息不同步,而多源噪声则会降低感知结果的准确性。这些问题严重影响了协同感知的性能和可靠性。

核心思路:CATNet的核心思路是通过自适应补偿来解决时间延迟和噪声干扰。具体来说,它首先通过时空循环同步模块对齐异步特征流,然后利用小波增强去噪模块抑制噪声并重建特征,最后通过自适应特征选择模块提取关键特征进行融合。这种设计旨在建立一个鲁棒且适应性强的协同感知框架。

技术框架:CATNet的整体架构包含三个主要模块:时空循环同步(STSync)、双分支小波增强去噪器(WTDen)和自适应特征选择器(AdpSel)。STSync负责对齐来自不同智能体的异步特征流,WTDen负责抑制噪声并重建特征,AdpSel负责选择关键特征进行融合。整个流程旨在提高协同感知的鲁棒性和准确性。

关键创新:CATNet的关键创新在于其自适应补偿机制,它能够有效地处理时间延迟和噪声干扰。STSync通过相邻帧差分建模建立时空统一的表示空间,WTDen利用小波变换进行噪声抑制和特征重建,AdpSel动态地关注关键感知特征。这些创新使得CATNet能够更好地适应复杂交通场景。

关键设计:STSync采用循环神经网络结构,通过学习相邻帧之间的差异来对齐异步特征流。WTDen采用双分支结构,分别处理全局噪声和局部特征失真。AdpSel使用注意力机制来动态地选择关键特征。具体的参数设置和损失函数细节在论文中进行了详细描述,以确保模型的有效性和稳定性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CATNet在多个数据集上均优于现有方法。在复杂的交通条件下,CATNet的感知性能提升显著,证明了其在处理时间延迟和噪声干扰方面的优势。具体的性能数据和对比基线在论文中进行了详细展示。

🎯 应用场景

CATNet可应用于自动驾驶、智能交通、机器人等领域,提升多智能体协同环境下的感知能力。通过解决时延和噪声问题,该研究有助于提高系统的安全性和可靠性,为更高级别的智能应用奠定基础,例如协同决策和路径规划。

📄 摘要(原文)

Cooperative perception significantly enhances scene understanding by integrating complementary information from diverse agents. However, existing research often overlooks critical challenges inherent in real-world multi-source data integration, specifically high temporal latency and multi-source noise. To address these practical limitations, we propose Collaborative Alignment and Transformation Network (CATNet), an adaptive compensation framework that resolves temporal latency and noise interference in multi-agent systems. Our key innovations can be summarized in three aspects. First, we introduce a Spatio-Temporal Recurrent Synchronization (STSync) that aligns asynchronous feature streams via adjacent-frame differential modeling, establishing a temporal-spatially unified representation space. Second, we design a Dual-Branch Wavelet Enhanced Denoiser (WTDen) that suppresses global noise and reconstructs localized feature distortions within aligned representations. Third, we construct an Adaptive Feature Selector (AdpSel) that dynamically focuses on critical perceptual features for robust fusion. Extensive experiments on multiple datasets demonstrate that CATNet consistently outperforms existing methods under complex traffic conditions, proving its superior robustness and adaptability.