DVS-PedX: Synthetic-and-Real Event-Based Pedestrian Dataset

作者: Mustafa Sakhai, Kaung Sithu, Min Khant Soe Oke, Maciej Wielgosz

分类: cs.CV

发布日期: 2025-09-04

备注: 12 pages, 8 figures, 3 tables; dataset descriptor paper introducing DVS-PedX (synthetic-and-real event-based pedestrian dataset with baselines) External URL: https://doi.org/10.5281/zenodo.17030898

💡 一句话要点

DVS-PedX：用于事件相机行人检测与意图分析的合成与真实数据集

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 事件相机 行人检测 意图分析 神经形态 合成数据 真实数据 领域自适应

📋 核心要点

现有行人检测方法在低延迟、高动态范围和运动鲁棒性方面存在挑战，事件相机技术为此提供了新的解决方案。
DVS-PedX数据集通过合成数据和真实数据结合的方式，为事件相机在行人检测和意图分析任务上提供了训练和评估资源。
基线脉冲神经网络实验揭示了合成数据与真实数据之间的差距，表明需要进一步研究领域自适应方法。

📝 摘要（中文）

DVS-PedX（动态视觉传感器行人探索）是一个神经形态数据集，专为行人检测和横穿意图分析而设计，适用于正常和恶劣天气条件。该数据集包含两个互补来源：（1）在CARLA模拟器中生成的合成事件流，用于控制“接近-横穿”场景，并具有不同的天气和光照条件；（2）使用v2e工具将真实世界的JAAD行车记录仪视频转换为事件流，保留了自然行为和背景。每个序列包括配对的RGB帧、每帧DVS“事件帧”（33毫秒累积）和帧级标签（横穿与不横穿）。我们还提供原始的AEDAT 2.0/AEDAT 4.0事件文件和AVI DVS视频文件以及元数据，以便灵活地重新处理。使用SpikingJelly的基线脉冲神经网络（SNN）展示了数据集的可用性，并揭示了sim-to-real的差距，从而激发了领域自适应和多模态融合。DVS-PedX旨在加速基于事件的行人安全、意图预测和神经形态感知方面的研究。

🔬 方法详解

问题定义：论文旨在解决基于事件相机的行人检测和横穿意图分析问题。现有方法在处理低延迟、高动态范围和快速运动场景时面临挑战，缺乏专门针对事件相机的行人数据集。

核心思路：论文的核心思路是构建一个包含合成数据和真实数据的混合数据集，以弥补真实事件数据稀缺的问题。合成数据可以提供大量的标注数据，而真实数据可以保证模型的泛化能力。

技术框架：DVS-PedX数据集包含两个主要部分：(1) 使用CARLA模拟器生成的合成事件流，模拟各种天气和光照条件下的行人接近和横穿场景；(2) 使用v2e工具将真实世界的JAAD行车记录仪视频转换为事件流。数据集提供配对的RGB帧、每帧DVS事件帧、帧级标签以及原始事件数据文件。

关键创新：该数据集的关键创新在于结合了合成数据和真实数据，并提供了多种数据格式，方便研究人员进行不同的实验和算法开发。此外，数据集还提供了行人横穿意图的标注，为相关研究提供了支持。

关键设计：合成数据使用CARLA模拟器生成，可以控制各种环境参数，例如天气、光照、行人的行为等。真实数据来自JAAD行车记录仪视频，使用v2e工具转换为事件流。事件帧的累积时间为33毫秒。基线模型使用SpikingJelly框架构建脉冲神经网络。

📊 实验亮点

论文使用SpikingJelly框架构建了基线脉冲神经网络，并在DVS-PedX数据集上进行了实验。实验结果揭示了合成数据与真实数据之间的性能差距，表明需要进一步研究领域自适应方法，为后续研究提供了方向。

🎯 应用场景

该研究成果可应用于智能驾驶、机器人导航、智能监控等领域，提升系统在复杂环境下的感知能力，尤其是在低光照、高动态范围和快速运动场景下的行人检测和意图预测能力，从而提高安全性。

📄 摘要（原文）

Event cameras like Dynamic Vision Sensors (DVS) report micro-timed brightness changes instead of full frames, offering low latency, high dynamic range, and motion robustness. DVS-PedX (Dynamic Vision Sensor Pedestrian eXploration) is a neuromorphic dataset designed for pedestrian detection and crossing-intention analysis in normal and adverse weather conditions across two complementary sources: (1) synthetic event streams generated in the CARLA simulator for controlled "approach-cross" scenes under varied weather and lighting; and (2) real-world JAAD dash-cam videos converted to event streams using the v2e tool, preserving natural behaviors and backgrounds. Each sequence includes paired RGB frames, per-frame DVS "event frames" (33 ms accumulations), and frame-level labels (crossing vs. not crossing). We also provide raw AEDAT 2.0/AEDAT 4.0 event files and AVI DVS video files and metadata for flexible re-processing. Baseline spiking neural networks (SNNs) using SpikingJelly illustrate dataset usability and reveal a sim-to-real gap, motivating domain adaptation and multimodal fusion. DVS-PedX aims to accelerate research in event-based pedestrian safety, intention prediction, and neuromorphic perception.

DVS-PedX: Synthetic-and-Real Event-Based Pedestrian Dataset

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册