PrismVAU: Prompt-Refined Inference System for Multimodal Video Anomaly Understanding

作者: Iñaki Erregue, Kamal Nasrollahi, Sergio Escalera

分类: cs.CV, cs.AI

发布日期: 2026-01-06

备注: This paper has been accepted to the 6th Workshop on Real-World Surveillance: Applications and Challenges (WACV 2025)

💡 一句话要点

PrismVAU：用于多模态视频异常理解的Prompt优化推理系统

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视频异常理解 多模态学习 大型语言模型 Prompt工程 弱监督学习

📋 核心要点

现有视频异常理解方法依赖微调MLLM或外部模块，导致标注成本高、流程复杂、推理开销大。
PrismVAU利用单个现成的MLLM，通过文本锚点和prompt优化，实现轻量级、实时的异常理解。
实验表明，PrismVAU在标准VAD基准上实现了有竞争力的检测性能和可解释的异常解释。

📝 摘要（中文）

视频异常理解（VAU）扩展了传统的视频异常检测（VAD），不仅定位异常，还描述和推理其上下文。现有的VAU方法通常依赖于微调的多模态大型语言模型（MLLM）或外部模块（如视频字幕生成器），这引入了昂贵的标注、复杂的训练流程和高推理开销。本文提出了PrismVAU，一个轻量级但有效的实时VAU系统，它利用单个现成的MLLM进行异常评分、解释和prompt优化。PrismVAU分两个互补阶段运行：（1）粗略异常评分模块，通过与文本锚点的相似性计算帧级异常分数；（2）基于MLLM的细化模块，通过系统和用户prompt将异常情境化。文本锚点和prompt都通过弱监督的自动Prompt工程（APE）框架进行优化。在标准VAD基准上的大量实验表明，PrismVAU提供了具有竞争力的检测性能和可解释的异常解释——无需依赖指令微调、帧级标注、外部模块或密集处理——使其成为现实世界应用的高效实用解决方案。

🔬 方法详解

问题定义：论文旨在解决视频异常理解（VAU）问题，即不仅要检测视频中的异常事件，还要理解和解释这些异常事件的上下文。现有方法的痛点在于依赖于微调的多模态大型语言模型（MLLM）或外部模块，这导致了高昂的标注成本、复杂的训练流程和较高的推理开销。这些方法难以在资源受限的环境中部署，并且缺乏实时性。

核心思路：PrismVAU的核心思路是利用一个现成的（off-the-shelf）MLLM，通过精心设计的prompt和文本锚点，在不需要额外训练或微调的情况下，实现高效的异常评分、解释和prompt优化。通过自动Prompt工程（APE）框架，弱监督地优化文本锚点和prompt，从而提高系统的性能和可解释性。

技术框架：PrismVAU系统包含两个主要阶段：（1）粗略异常评分模块：该模块计算帧级别的异常分数，通过计算视频帧与文本锚点之间的相似度来实现。文本锚点代表了正常事件的文本描述。（2）MLLM细化模块：该模块利用MLLM，结合系统prompt和用户prompt，对异常事件进行情境化解释。系统prompt提供通用的异常检测和解释指导，用户prompt则允许用户根据具体需求定制解释。APE框架用于优化文本锚点和prompt。

关键创新：PrismVAU的关键创新在于：（1）轻量级架构：使用现成的MLLM，避免了昂贵的微调和训练。（2）自动Prompt工程（APE）：通过弱监督的方式自动优化文本锚点和prompt，提高了系统的性能和可解释性。（3）实时性：整个系统设计注重效率，能够在实时场景下进行异常理解。与现有方法相比，PrismVAU无需帧级别标注、外部模块或密集处理。

关键设计：APE框架使用弱监督信号来优化文本锚点和prompt。具体来说，它使用视频级别的标签（例如，视频是否包含异常）来指导prompt的生成和选择。文本锚点的选择基于与正常视频帧的相似度。MLLM的prompt设计包括系统prompt和用户prompt，系统prompt提供通用的异常检测和解释指导，用户prompt允许用户根据具体需求定制解释。相似度计算可以使用余弦相似度或其他合适的度量方法。

🖼️ 关键图片

📊 实验亮点

实验结果表明，PrismVAU在标准VAD基准上取得了具有竞争力的检测性能，同时提供了可解释的异常解释。与现有方法相比，PrismVAU无需指令微调、帧级标注、外部模块或密集处理，显著降低了计算成本和标注成本。具体性能数据未知，但摘要强调了其效率和实用性。

🎯 应用场景

PrismVAU可应用于各种视频监控场景，例如智能交通、工业安全、公共安全等。它可以帮助自动检测和理解异常事件，例如交通事故、人员跌倒、设备故障等，从而提高监控效率和安全性。该系统还可用于视频内容分析和审核，自动识别和过滤不良内容。未来，PrismVAU可以扩展到其他多模态数据分析任务，例如医疗影像分析和机器人导航。

📄 摘要（原文）

Video Anomaly Understanding (VAU) extends traditional Video Anomaly Detection (VAD) by not only localizing anomalies but also describing and reasoning about their context. Existing VAU approaches often rely on fine-tuned multimodal large language models (MLLMs) or external modules such as video captioners, which introduce costly annotations, complex training pipelines, and high inference overhead. In this work, we introduce PrismVAU, a lightweight yet effective system for real-time VAU that leverages a single off-the-shelf MLLM for anomaly scoring, explanation, and prompt optimization. PrismVAU operates in two complementary stages: (1) a coarse anomaly scoring module that computes frame-level anomaly scores via similarity to textual anchors, and (2) an MLLM-based refinement module that contextualizes anomalies through system and user prompts. Both textual anchors and prompts are optimized with a weakly supervised Automatic Prompt Engineering (APE) framework. Extensive experiments on standard VAD benchmarks demonstrate that PrismVAU delivers competitive detection performance and interpretable anomaly explanations -- without relying on instruction tuning, frame-level annotations, and external modules or dense processing -- making it an efficient and practical solution for real-world applications.

PrismVAU: Prompt-Refined Inference System for Multimodal Video Anomaly Understanding

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册