EV-LayerSegNet: Self-supervised Motion Segmentation using Event Cameras
作者: Youssef Farah, Federico Paredes-Vallés, Guido De Croon, Muhammad Ahmed Humais, Hussain Sajwani, Yahya Zweiri
分类: cs.CV
发布日期: 2025-06-07
备注: This paper has been accepted for publication at the IEEE Conference on Computer Vision and Pattern Recognition (CVPR) Workshops, Nashville, 2025
💡 一句话要点
提出EV-LayerSegNet以解决事件相机运动分割问题
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 事件相机 运动分割 自监督学习 仿射光流 卷积神经网络 去模糊处理 计算机视觉
📋 核心要点
- 现有方法在事件相机运动分割任务中面临真实标签获取困难、成本高和频率有限等挑战。
- 论文提出EV-LayerSegNet,通过自监督学习实现仿射光流和分割掩码的独立学习,进而对输入事件进行去模糊处理。
- 在仅包含仿射运动的模拟数据集上,EV-LayerSegNet实现了71%的IoU和87%的检测率,显示出显著的性能提升。
📝 摘要(中文)
事件相机是一种新型的生物启发传感器,能够以高于传统相机的时间分辨率捕捉运动动态。然而,训练基于事件的网络仍然面临挑战,因为获取真实标签既昂贵又容易出错。本文提出EV-LayerSegNet,一种自监督卷积神经网络,用于事件基础的运动分割。通过分层表示场景动态,论文展示了如何分别学习仿射光流和分割掩码,并利用这些信息对输入事件进行去模糊处理。去模糊质量被用作自监督学习损失。实验结果表明,在仅包含仿射运动的模拟数据集上,网络的IoU和检测率分别达到了71%和87%。
🔬 方法详解
问题定义:本文旨在解决事件相机在运动分割任务中面临的真实标签获取困难和训练挑战。现有方法往往依赖昂贵且不可靠的标签,限制了其应用。
核心思路:论文的核心思想是通过自监督学习框架,分别学习仿射光流和分割掩码,从而实现对输入事件的去模糊处理。这种分层表示方法能够有效捕捉场景动态。
技术框架:EV-LayerSegNet的整体架构包括两个主要模块:仿射光流估计模块和分割掩码生成模块。输入事件首先经过光流估计,随后生成分割掩码,最后利用去模糊处理提升输入事件的质量。
关键创新:最重要的技术创新在于自监督学习损失的设计,通过去模糊质量作为损失函数,避免了对真实标签的依赖。这一方法与传统的监督学习方法本质上不同。
关键设计:论文中采用了特定的损失函数来衡量去模糊效果,并设计了适合事件数据的卷积神经网络结构,以提高模型的学习效率和准确性。具体的参数设置和网络结构细节在实验部分进行了详细描述。
📊 实验亮点
实验结果显示,EV-LayerSegNet在仅包含仿射运动的模拟数据集上,IoU达到了71%,检测率达到了87%。这些结果表明该方法在运动分割任务中相较于现有基线有显著提升,展示了其有效性和潜力。
🎯 应用场景
该研究的潜在应用领域包括自动驾驶、机器人视觉和监控系统等,能够利用事件相机的高时间分辨率特性,在动态环境中实现更精确的运动分割。这将极大提升相关领域的智能化水平和实时处理能力,具有重要的实际价值和未来影响。
📄 摘要(原文)
Event cameras are novel bio-inspired sensors that capture motion dynamics with much higher temporal resolution than traditional cameras, since pixels react asynchronously to brightness changes. They are therefore better suited for tasks involving motion such as motion segmentation. However, training event-based networks still represents a difficult challenge, as obtaining ground truth is very expensive, error-prone and limited in frequency. In this article, we introduce EV-LayerSegNet, a self-supervised CNN for event-based motion segmentation. Inspired by a layered representation of the scene dynamics, we show that it is possible to learn affine optical flow and segmentation masks separately, and use them to deblur the input events. The deblurring quality is then measured and used as self-supervised learning loss. We train and test the network on a simulated dataset with only affine motion, achieving IoU and detection rate up to 71% and 87% respectively.