Are Multimodal LLMs Ready for Surveillance? A Reality Check on Zero-Shot Anomaly Detection in the Wild

作者: Shanle Yao, Armin Danesh Pazho, Narges Rashvand, Hamed Tabkhi

分类: cs.CV, cs.AI

发布日期: 2026-03-05

💡 一句话要点

评估多模态大语言模型在监控场景下零样本异常检测的可靠性，揭示其保守偏见。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 视频异常检测 零样本学习 语言引导推理 保守偏见

📋 核心要点

现有视频异常检测方法依赖重建或姿态信息，缺乏语言引导的推理能力。
将异常检测重构为语言引导的二元分类任务，利用MLLM进行零样本异常检测。
实验表明MLLM存在保守偏见，通过类别特定指令可提升F1分数，但召回率仍是瓶颈。

📝 摘要（中文）

多模态大语言模型(MLLM)在视频理解方面表现出令人印象深刻的通用能力，但它们在真实世界视频异常检测(VAD)中的可靠性在很大程度上仍未被探索。与依赖重建或基于姿态线索的传统流程不同，MLLM实现了一种范式转变：将异常检测视为一种语言引导的推理任务。本文通过将VAD重新定义为弱时间监督下的二元分类任务，系统地评估了最先进的MLLM在ShanghaiTech和CHAD基准上的性能。我们研究了提示特异性和时间窗口长度(1s-3s)如何影响性能，重点关注精确率-召回率的权衡。我们的研究结果揭示了零样本设置中明显的保守偏见；虽然模型表现出很高的置信度，但它们不成比例地偏向于“正常”类别，导致高精确率但召回率崩溃，限制了实际效用。我们证明了特定类别的指令可以显著改变这一决策边界，将ShanghaiTech上的峰值F1分数从0.09提高到0.64，但召回率仍然是一个关键瓶颈。这些结果突出了MLLM在嘈杂环境中的显著性能差距，并为未来在面向召回的提示和模型校准方面的工作奠定了基础，以用于需要复杂视频理解和推理的开放世界监控。

🔬 方法详解

问题定义：论文旨在评估多模态大语言模型（MLLM）在真实监控场景下进行零样本视频异常检测（VAD）的可靠性。现有VAD方法通常依赖于重建误差或姿态信息等线索，缺乏利用自然语言进行复杂推理的能力，并且泛化性较差。

核心思路：论文的核心思路是将VAD问题转化为一个语言引导的二元分类任务。通过设计合适的文本提示，引导MLLM判断视频片段是否包含异常行为。这种方法利用了MLLM强大的语言理解和视觉推理能力，无需针对特定场景进行训练。

技术框架：整体流程包括：1) 将视频分割成短的时间窗口（1s-3s）；2) 使用MLLM提取每个时间窗口的视觉特征；3) 将视觉特征和文本提示输入MLLM，进行二元分类（正常/异常）；4) 根据分类结果评估模型性能。使用的MLLM模型为当前最先进的模型。

关键创新：论文的关键创新在于将VAD问题重新定义为语言引导的推理任务，并探索了MLLM在零样本VAD中的应用。与传统方法相比，该方法无需训练，具有更好的泛化能力。此外，论文还发现了MLLM在VAD中存在的保守偏见，并提出了通过类别特定指令来缓解这一问题的方法。

关键设计：论文的关键设计包括：1) 设计不同的文本提示，包括通用提示和类别特定提示，以研究提示对模型性能的影响；2) 调整时间窗口长度（1s-3s），以研究时间上下文对模型性能的影响；3) 使用精确率、召回率和F1分数等指标，全面评估模型在不同设置下的性能。

🖼️ 关键图片

📊 实验亮点

实验结果表明，MLLM在零样本VAD中存在保守偏见，倾向于将视频片段分类为“正常”。通过使用类别特定指令，可以将ShanghaiTech数据集上的峰值F1分数从0.09提高到0.64。然而，召回率仍然是一个关键瓶颈，表明MLLM在处理噪声环境和复杂异常事件时仍存在挑战。

🎯 应用场景

该研究成果可应用于智能监控、安全巡检、工业异常检测等领域。通过利用多模态大语言模型的推理能力，可以实现对异常事件的自动检测和预警，提高安全性和效率。未来的研究可以进一步探索如何优化提示设计、提高模型校准，以提升MLLM在开放世界监控场景下的性能。

📄 摘要（原文）

Multimodal large language models (MLLMs) have demonstrated impressive general competence in video understanding, yet their reliability for real-world Video Anomaly Detection (VAD) remains largely unexplored. Unlike conventional pipelines relying on reconstruction or pose-based cues, MLLMs enable a paradigm shift: treating anomaly detection as a language-guided reasoning task. In this work, we systematically evaluate state-of-the-art MLLMs on the ShanghaiTech and CHAD benchmarks by reformulating VAD as a binary classification task under weak temporal supervision. We investigate how prompt specificity and temporal window lengths (1s--3s) influence performance, focusing on the precision--recall trade-off. Our findings reveal a pronounced conservative bias in zero-shot settings; while models exhibit high confidence, they disproportionately favor the 'normal' class, resulting in high precision but a recall collapse that limits practical utility. We demonstrate that class-specific instructions can significantly shift this decision boundary, improving the peak F1-score on ShanghaiTech from 0.09 to 0.64, yet recall remains a critical bottleneck. These results highlight a significant performance gap for MLLMs in noisy environments and provide a foundation for future work in recall-oriented prompting and model calibration for open-world surveillance, which demands complex video understanding and reasoning.

Are Multimodal LLMs Ready for Surveillance? A Reality Check on Zero-Shot Anomaly Detection in the Wild

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理