Low-latency Event-based Object Detection with Spatially-Sparse Linear Attention

📄 arXiv: 2603.06228v1 📥 PDF

作者: Haiqing Hao, Zhipeng Sui, Rong Zou, Zijia Dai, Nikola Zubić, Davide Scaramuzza, Wenhui Wang

分类: cs.CV

发布日期: 2026-03-06


💡 一句话要点

提出空间稀疏线性注意力(SSLA),用于低延迟事件相机目标检测。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 事件相机 目标检测 线性注意力 空间稀疏 低延迟 异步神经网络 深度学习

📋 核心要点

  1. 现有异步事件神经网络在长序列训练效率和精度-延迟权衡上存在瓶颈。
  2. 提出空间稀疏线性注意力(SSLA),通过空间混合状态分解和分散-计算-聚集训练实现状态稀疏和并行训练。
  3. SSLA-Det在Gen1和N-Caltech101数据集上取得了SOTA精度,同时显著降低了计算量。

📝 摘要(中文)

事件相机提供具有空间稀疏性和高时间分辨率的序列视觉数据,使其在低延迟目标检测方面具有吸引力。现有的异步事件神经网络通过逐事件更新预测来实现这种低延迟优势,但仍然受到两个瓶颈的限制:循环架构难以在长序列上有效训练,以及提高精度通常会增加每次事件的计算和延迟。线性注意力在这种情况下很有吸引力,因为它支持并行训练和循环推理。然而,标准线性注意力为每个事件更新一个全局状态,导致较差的精度-效率权衡,这对于目标检测来说是有问题的,因为目标检测更喜欢细粒度的表示,因此也更喜欢细粒度的状态。因此,关键的挑战是引入利用事件稀疏性的稀疏状态激活,同时保持高效的并行训练。我们提出了空间稀疏线性注意力(SSLA),它引入了空间混合状态分解和分散-计算-聚集训练程序,从而实现状态级别的稀疏性以及训练并行性。基于SSLA,我们开发了一个用于事件目标检测的端到端异步线性注意力模型SSLA-Det。在Gen1和N-Caltech101上,SSLA-Det在异步方法中实现了最先进的精度,分别达到0.375 mAP和0.515 mAP,同时与最强的先前异步基线相比,每次事件的计算量减少了20倍以上,证明了线性注意力在低延迟事件视觉中的潜力。

🔬 方法详解

问题定义:论文旨在解决事件相机目标检测中,现有异步神经网络在长序列训练效率低、精度提升导致延迟增加的问题。现有方法通常采用循环架构,难以并行训练,且全局状态更新导致计算量大,精度-效率权衡不佳。

核心思路:论文的核心思路是利用事件数据的空间稀疏性,引入空间稀疏线性注意力(SSLA)。通过将状态分解到不同的空间,并仅更新与当前事件相关的空间状态,从而减少计算量,提高效率。同时,采用分散-计算-聚集的训练方式,保证训练的并行性。

技术框架:SSLA-Det模型是一个端到端的异步线性注意力网络,主要包含以下几个模块:事件编码模块(将事件数据转换为特征表示),空间稀疏线性注意力模块(SSLA,核心模块,实现稀疏状态更新),目标检测头(基于更新后的状态进行目标检测)。整个流程是事件逐个输入,经过编码后,SSLA模块根据事件的空间位置选择性地更新状态,最后目标检测头基于更新后的状态进行预测。

关键创新:最重要的技术创新点是空间稀疏线性注意力(SSLA)。与标准线性注意力不同,SSLA不是为每个事件更新全局状态,而是将状态分解到不同的空间,并仅更新与当前事件相关的空间状态。这种稀疏状态更新显著减少了计算量,提高了效率。

关键设计:SSLA的关键设计包括:1) 空间混合状态分解:将状态分解到不同的空间,每个空间负责处理特定区域的事件。2) 分散-计算-聚集训练:将训练数据分散到不同的设备上进行并行计算,然后将结果聚集起来进行更新。3) 损失函数:采用标准的目标检测损失函数,例如 Focal Loss 或 Smooth L1 Loss。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SSLA-Det在Gen1和N-Caltech101数据集上取得了显著的性能提升。在Gen1上,SSLA-Det达到了0.375 mAP,在N-Caltech101上达到了0.515 mAP,均优于现有的异步事件相机目标检测方法。更重要的是,与最强的异步基线相比,SSLA-Det每次事件的计算量减少了20倍以上,证明了其在低延迟应用中的巨大潜力。

🎯 应用场景

该研究成果可应用于低延迟、高效率的事件相机视觉任务,例如自动驾驶、机器人导航、高速运动目标跟踪等。在这些场景中,快速响应和低功耗至关重要,而SSLA-Det能够提供更优的解决方案。未来,该技术有望推动事件相机在更多实际场景中的应用。

📄 摘要(原文)

Event cameras provide sequential visual data with spatial sparsity and high temporal resolution, making them attractive for low-latency object detection. Existing asynchronous event-based neural networks realize this low-latency advantage by updating predictions event-by-event, but still suffer from two bottlenecks: recurrent architectures are difficult to train efficiently on long sequences, and improving accuracy often increases per-event computation and latency. Linear attention is appealing in this setting because it supports parallel training and recurrent inference. However, standard linear attention updates a global state for every event, yielding a poor accuracy-efficiency trade-off, which is problematic for object detection, where fine-grained representations and thus states are preferred. The key challenge is therefore to introduce sparse state activation that exploits event sparsity while preserving efficient parallel training. We propose Spatially-Sparse Linear Attention (SSLA), which introduces a mixture-of-spaces state decomposition and a scatter-compute-gather training procedure, enabling state-level sparsity as well as training parallelism. Built on SSLA, we develop an end-to-end asynchronous linear attention model, SSLA-Det, for event-based object detection. On Gen1 and N-Caltech101, SSLA-Det achieves state-of-the-art accuracy among asynchronous methods, reaching 0.375 mAP and 0.515 mAP, respectively, while reducing per-event computation by more than 20 times compared to the strongest prior asynchronous baseline, demonstrating the potential of linear attention for low-latency event-based vision.