VADMamba++: Efficient Video Anomaly Detection via Hybrid Modeling in Grayscale Space
作者: Jihao Lyu, Minghua Zhao, Jing Hu, Yifei Chen, Shuangli Du, Cheng Shi
分类: cs.CV
发布日期: 2026-04-01
💡 一句话要点
VADMamba++:基于灰度空间混合建模的高效视频异常检测
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 视频异常检测 Mamba 灰度重建 混合建模 单任务学习
📋 核心要点
- 现有VAD方法依赖光流等辅助信息,限制了其在单任务场景下的应用,且跨任务融合策略复杂。
- VADMamba++提出灰度到RGB重建范式,迫使模型学习结构和颜色之间的关系,从而有效检测异常。
- VADMamba++集成了Mamba、CNN和Transformer,并设计了任务内融合评分策略,提升了检测精度和效率。
📝 摘要(中文)
VADMamba率先将Mamba引入视频异常检测(VAD),通过混合代理任务实现了高精度和快速推理。然而,它对光流作为辅助输入和跨任务融合评分的严重依赖限制了其在单一代理任务中的适用性。本文提出了VADMamba++,一种基于灰度到RGB范式的高效VAD方法,该方法强制执行单通道到三通道的重建映射,专为单一代理任务设计,无需辅助输入。这种范式迫使从灰度结构推断颜色外观,从而通过结构和颜色线索之间的双重不一致性更有效地揭示异常。具体来说,VADMamba++将灰度帧重建到RGB空间,以同时区分结构几何和颜色保真度,从而提高对显式视觉异常的敏感性。我们进一步设计了一个混合建模骨干网络,集成了Mamba、CNN和Transformer模块,以捕获多样化的正常模式,同时抑制异常的出现。此外,一种任务内融合评分策略将显式的未来帧预测误差与隐式的量化特征误差相结合,进一步提高了单任务设置下的准确性。在三个基准数据集上的大量实验表明,VADMamba++优于最先进的方法,同时满足性能和效率,尤其是在严格的单任务设置下,仅使用帧级输入。
🔬 方法详解
问题定义:视频异常检测旨在识别视频中与正常模式显著不同的事件。现有方法,如VADMamba,依赖于光流等辅助输入,增加了计算负担,并且其跨任务融合评分策略限制了其在单一代理任务中的应用。因此,如何在仅使用帧级输入的情况下,实现高效且准确的视频异常检测是一个挑战。
核心思路:VADMamba++的核心思路是利用灰度到RGB的重建范式。通过将灰度图像重建为彩色图像,模型需要学习图像的结构信息和颜色信息之间的对应关系。当出现异常时,这种对应关系会被破坏,从而可以有效地检测到异常。这种方法无需额外的光流输入,简化了流程,并提高了效率。
技术框架:VADMamba++的整体框架包括以下几个主要模块:1) 灰度图像输入;2) 混合建模骨干网络,该网络集成了Mamba、CNN和Transformer模块,用于提取特征;3) 灰度到RGB的重建模块,将提取的特征重建为RGB图像;4) 任务内融合评分模块,结合了未来帧预测误差和量化特征误差,用于最终的异常评分。
关键创新:VADMamba++的关键创新在于其灰度到RGB的重建范式和混合建模骨干网络。灰度到RGB的重建范式迫使模型学习结构和颜色之间的关系,从而更有效地检测异常。混合建模骨干网络结合了Mamba、CNN和Transformer的优点,能够更好地捕获视频中的时空信息。与现有方法相比,VADMamba++无需额外的光流输入,并且可以在单一代理任务下实现高性能。
关键设计:在混合建模骨干网络中,Mamba模块用于捕获长程时序依赖关系,CNN模块用于提取局部空间特征,Transformer模块用于建模全局关系。任务内融合评分模块结合了未来帧预测误差和量化特征误差,其中未来帧预测误差反映了模型对视频序列的预测能力,量化特征误差反映了模型对正常模式的学习程度。具体的损失函数设计和网络结构参数设置在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
VADMamba++在三个基准数据集上进行了广泛的实验,结果表明其性能优于当前最先进的方法。尤其是在严格的单任务设置下,仅使用帧级输入,VADMamba++依然能够达到很高的精度和效率。具体的性能数据和对比基线在论文中有详细的展示,证明了VADMamba++的有效性和优越性。
🎯 应用场景
VADMamba++在视频监控、工业检测、医疗影像分析等领域具有广泛的应用前景。例如,在视频监控中,可以用于自动检测异常行为,提高安全性;在工业检测中,可以用于检测产品表面的缺陷;在医疗影像分析中,可以用于辅助医生诊断疾病。该研究的实际价值在于提高了视频异常检测的效率和准确性,降低了对额外信息的依赖,为相关领域的智能化应用提供了技术支持。
📄 摘要(原文)
VADMamba pioneered the introduction of Mamba to Video Anomaly Detection (VAD), achieving high accuracy and fast inference through hybrid proxy tasks. Nevertheless, its heavy reliance on optical flow as auxiliary input and inter-task fusion scoring constrains its applicability to a single proxy task. In this paper, we introduce VADMamba++, an efficient VAD method based on the Gray-to-RGB paradigm that enforces a Single-Channel to Three-Channel reconstruction mapping, designed for a single proxy task and operating without auxiliary inputs. This paradigm compels inferring color appearances from grayscale structures, allowing anomalies to be more effectively revealed through dual inconsistencies between structure and chromatic cues. Specifically, VADMamba++ reconstructs grayscale frames into the RGB space to simultaneously discriminate structural geometry and chromatic fidelity, thereby enhancing sensitivity to explicit visual anomalies. We further design a hybrid modeling backbone that integrates Mamba, CNN, and Transformer modules to capture diverse normal patterns while suppressing the appearance of anomalies. Furthermore, an intra-task fusion scoring strategy integrates explicit future-frame prediction errors with implicit quantized feature errors, further improving accuracy under a single task setting. Extensive experiments on three benchmark datasets demonstrate that VADMamba++ outperforms state-of-the-art methods while meeting performance and efficiency, especially under a strict single-task setting with only frame-level inputs.