PrismVAU: Prompt-Refined Inference System for Multimodal Video Anomaly Understanding
作者: Iñaki Erregue, Kamal Nasrollahi, Sergio Escalera
分类: cs.CV, cs.AI
发布日期: 2026-01-06
备注: This paper has been accepted to the 6th Workshop on Real-World Surveillance: Applications and Challenges (WACV 2025)
💡 一句话要点
PrismVAU:用于多模态视频异常理解的Prompt优化推理系统
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视频异常理解 多模态学习 大型语言模型 Prompt工程 弱监督学习
📋 核心要点
- 现有视频异常理解方法依赖微调MLLM或外部模块,导致标注成本高、流程复杂、推理开销大。
- PrismVAU利用单个现成的MLLM,通过文本锚点和prompt优化,实现轻量级、实时的异常理解。
- 实验表明,PrismVAU在标准VAD基准上实现了有竞争力的检测性能和可解释的异常解释。
📝 摘要(中文)
视频异常理解(VAU)扩展了传统的视频异常检测(VAD),不仅定位异常,还描述和推理其上下文。现有的VAU方法通常依赖于微调的多模态大型语言模型(MLLM)或外部模块(如视频字幕生成器),这引入了昂贵的标注、复杂的训练流程和高推理开销。本文提出了PrismVAU,一个轻量级但有效的实时VAU系统,它利用单个现成的MLLM进行异常评分、解释和prompt优化。PrismVAU分两个互补阶段运行:(1)粗略异常评分模块,通过与文本锚点的相似性计算帧级异常分数;(2)基于MLLM的细化模块,通过系统和用户prompt将异常情境化。文本锚点和prompt都通过弱监督的自动Prompt工程(APE)框架进行优化。在标准VAD基准上的大量实验表明,PrismVAU提供了具有竞争力的检测性能和可解释的异常解释——无需依赖指令微调、帧级标注、外部模块或密集处理——使其成为现实世界应用的高效实用解决方案。
🔬 方法详解
问题定义:论文旨在解决视频异常理解(VAU)问题,即不仅要检测视频中的异常事件,还要理解和解释这些异常事件的上下文。现有方法的痛点在于依赖于微调的多模态大型语言模型(MLLM)或外部模块,这导致了高昂的标注成本、复杂的训练流程和较高的推理开销。这些方法难以在资源受限的环境中部署,并且缺乏实时性。
核心思路:PrismVAU的核心思路是利用一个现成的(off-the-shelf)MLLM,通过精心设计的prompt和文本锚点,在不需要额外训练或微调的情况下,实现高效的异常评分、解释和prompt优化。通过自动Prompt工程(APE)框架,弱监督地优化文本锚点和prompt,从而提高系统的性能和可解释性。
技术框架:PrismVAU系统包含两个主要阶段:(1)粗略异常评分模块:该模块计算帧级别的异常分数,通过计算视频帧与文本锚点之间的相似度来实现。文本锚点代表了正常事件的文本描述。(2)MLLM细化模块:该模块利用MLLM,结合系统prompt和用户prompt,对异常事件进行情境化解释。系统prompt提供通用的异常检测和解释指导,用户prompt则允许用户根据具体需求定制解释。APE框架用于优化文本锚点和prompt。
关键创新:PrismVAU的关键创新在于:(1)轻量级架构:使用现成的MLLM,避免了昂贵的微调和训练。(2)自动Prompt工程(APE):通过弱监督的方式自动优化文本锚点和prompt,提高了系统的性能和可解释性。(3)实时性:整个系统设计注重效率,能够在实时场景下进行异常理解。与现有方法相比,PrismVAU无需帧级别标注、外部模块或密集处理。
关键设计:APE框架使用弱监督信号来优化文本锚点和prompt。具体来说,它使用视频级别的标签(例如,视频是否包含异常)来指导prompt的生成和选择。文本锚点的选择基于与正常视频帧的相似度。MLLM的prompt设计包括系统prompt和用户prompt,系统prompt提供通用的异常检测和解释指导,用户prompt允许用户根据具体需求定制解释。相似度计算可以使用余弦相似度或其他合适的度量方法。
🖼️ 关键图片
📊 实验亮点
实验结果表明,PrismVAU在标准VAD基准上取得了具有竞争力的检测性能,同时提供了可解释的异常解释。与现有方法相比,PrismVAU无需指令微调、帧级标注、外部模块或密集处理,显著降低了计算成本和标注成本。具体性能数据未知,但摘要强调了其效率和实用性。
🎯 应用场景
PrismVAU可应用于各种视频监控场景,例如智能交通、工业安全、公共安全等。它可以帮助自动检测和理解异常事件,例如交通事故、人员跌倒、设备故障等,从而提高监控效率和安全性。该系统还可用于视频内容分析和审核,自动识别和过滤不良内容。未来,PrismVAU可以扩展到其他多模态数据分析任务,例如医疗影像分析和机器人导航。
📄 摘要(原文)
Video Anomaly Understanding (VAU) extends traditional Video Anomaly Detection (VAD) by not only localizing anomalies but also describing and reasoning about their context. Existing VAU approaches often rely on fine-tuned multimodal large language models (MLLMs) or external modules such as video captioners, which introduce costly annotations, complex training pipelines, and high inference overhead. In this work, we introduce PrismVAU, a lightweight yet effective system for real-time VAU that leverages a single off-the-shelf MLLM for anomaly scoring, explanation, and prompt optimization. PrismVAU operates in two complementary stages: (1) a coarse anomaly scoring module that computes frame-level anomaly scores via similarity to textual anchors, and (2) an MLLM-based refinement module that contextualizes anomalies through system and user prompts. Both textual anchors and prompts are optimized with a weakly supervised Automatic Prompt Engineering (APE) framework. Extensive experiments on standard VAD benchmarks demonstrate that PrismVAU delivers competitive detection performance and interpretable anomaly explanations -- without relying on instruction tuning, frame-level annotations, and external modules or dense processing -- making it an efficient and practical solution for real-world applications.