Are Multimodal LLMs Ready for Surveillance? A Reality Check on Zero-Shot Anomaly Detection in the Wild
作者: Shanle Yao, Armin Danesh Pazho, Narges Rashvand, Hamed Tabkhi
分类: cs.CV, cs.AI
发布日期: 2026-03-05
💡 一句话要点
评估多模态大语言模型在监控场景下零样本异常检测的可靠性,揭示其保守偏见。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 视频异常检测 零样本学习 语言引导推理 保守偏见
📋 核心要点
- 现有视频异常检测方法依赖重建或姿态信息,缺乏语言引导的推理能力。
- 将异常检测重构为语言引导的二元分类任务,利用MLLM进行零样本异常检测。
- 实验表明MLLM存在保守偏见,通过类别特定指令可提升F1分数,但召回率仍是瓶颈。
📝 摘要(中文)
多模态大语言模型(MLLM)在视频理解方面表现出令人印象深刻的通用能力,但它们在真实世界视频异常检测(VAD)中的可靠性在很大程度上仍未被探索。与依赖重建或基于姿态线索的传统流程不同,MLLM实现了一种范式转变:将异常检测视为一种语言引导的推理任务。本文通过将VAD重新定义为弱时间监督下的二元分类任务,系统地评估了最先进的MLLM在ShanghaiTech和CHAD基准上的性能。我们研究了提示特异性和时间窗口长度(1s-3s)如何影响性能,重点关注精确率-召回率的权衡。我们的研究结果揭示了零样本设置中明显的保守偏见;虽然模型表现出很高的置信度,但它们不成比例地偏向于“正常”类别,导致高精确率但召回率崩溃,限制了实际效用。我们证明了特定类别的指令可以显著改变这一决策边界,将ShanghaiTech上的峰值F1分数从0.09提高到0.64,但召回率仍然是一个关键瓶颈。这些结果突出了MLLM在嘈杂环境中的显著性能差距,并为未来在面向召回的提示和模型校准方面的工作奠定了基础,以用于需要复杂视频理解和推理的开放世界监控。
🔬 方法详解
问题定义:论文旨在评估多模态大语言模型(MLLM)在真实监控场景下进行零样本视频异常检测(VAD)的可靠性。现有VAD方法通常依赖于重建误差或姿态信息等线索,缺乏利用自然语言进行复杂推理的能力,并且泛化性较差。
核心思路:论文的核心思路是将VAD问题转化为一个语言引导的二元分类任务。通过设计合适的文本提示,引导MLLM判断视频片段是否包含异常行为。这种方法利用了MLLM强大的语言理解和视觉推理能力,无需针对特定场景进行训练。
技术框架:整体流程包括:1) 将视频分割成短的时间窗口(1s-3s);2) 使用MLLM提取每个时间窗口的视觉特征;3) 将视觉特征和文本提示输入MLLM,进行二元分类(正常/异常);4) 根据分类结果评估模型性能。使用的MLLM模型为当前最先进的模型。
关键创新:论文的关键创新在于将VAD问题重新定义为语言引导的推理任务,并探索了MLLM在零样本VAD中的应用。与传统方法相比,该方法无需训练,具有更好的泛化能力。此外,论文还发现了MLLM在VAD中存在的保守偏见,并提出了通过类别特定指令来缓解这一问题的方法。
关键设计:论文的关键设计包括:1) 设计不同的文本提示,包括通用提示和类别特定提示,以研究提示对模型性能的影响;2) 调整时间窗口长度(1s-3s),以研究时间上下文对模型性能的影响;3) 使用精确率、召回率和F1分数等指标,全面评估模型在不同设置下的性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,MLLM在零样本VAD中存在保守偏见,倾向于将视频片段分类为“正常”。通过使用类别特定指令,可以将ShanghaiTech数据集上的峰值F1分数从0.09提高到0.64。然而,召回率仍然是一个关键瓶颈,表明MLLM在处理噪声环境和复杂异常事件时仍存在挑战。
🎯 应用场景
该研究成果可应用于智能监控、安全巡检、工业异常检测等领域。通过利用多模态大语言模型的推理能力,可以实现对异常事件的自动检测和预警,提高安全性和效率。未来的研究可以进一步探索如何优化提示设计、提高模型校准,以提升MLLM在开放世界监控场景下的性能。
📄 摘要(原文)
Multimodal large language models (MLLMs) have demonstrated impressive general competence in video understanding, yet their reliability for real-world Video Anomaly Detection (VAD) remains largely unexplored. Unlike conventional pipelines relying on reconstruction or pose-based cues, MLLMs enable a paradigm shift: treating anomaly detection as a language-guided reasoning task. In this work, we systematically evaluate state-of-the-art MLLMs on the ShanghaiTech and CHAD benchmarks by reformulating VAD as a binary classification task under weak temporal supervision. We investigate how prompt specificity and temporal window lengths (1s--3s) influence performance, focusing on the precision--recall trade-off. Our findings reveal a pronounced conservative bias in zero-shot settings; while models exhibit high confidence, they disproportionately favor the 'normal' class, resulting in high precision but a recall collapse that limits practical utility. We demonstrate that class-specific instructions can significantly shift this decision boundary, improving the peak F1-score on ShanghaiTech from 0.09 to 0.64, yet recall remains a critical bottleneck. These results highlight a significant performance gap for MLLMs in noisy environments and provide a foundation for future work in recall-oriented prompting and model calibration for open-world surveillance, which demands complex video understanding and reasoning.