SOVABench: A Vehicle Surveillance Action Retrieval Benchmark for Multimodal Large Language Models

作者: Oriol Rabasseda, Zenjie Li, Kamal Nasrollahi, Sergio Escalera

分类: cs.CV

发布日期: 2026-01-08

备注: This work has been accepted at Real World Surveillance: Applications and Challenges, 6th (in WACV Workshops)

💡 一句话要点

提出SOVABench车辆监控行为检索基准，用于评估多模态大语言模型

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 车辆监控 行为检索 多模态大语言模型 视觉推理 零样本学习

📋 核心要点

现有视频检索基准缺乏对监控视频中车辆行为细粒度区分的评估，无法满足实际需求。
利用多模态大语言模型生成可解释的描述，并从中提取嵌入，实现无需训练的行为检索。
SOVABench基准测试表明，该方法在车辆行为检索及空间、计数任务上表现优异。

📝 摘要（中文）

本文提出了SOVABench（Surveillance Opposite Vehicle Actions Benchmark），这是一个真实的车辆相关行为检索基准，构建自监控录像。现有基于内容的视频检索基准大多关注场景级别的相似性，而忽略了监控中所需的行为区分能力。SOVABench定义了两种评估协议（pair间和pair内），以评估跨行为区分和时间方向理解能力。实验表明，尽管行为区分对人类观察者来说通常很直观，但对于最先进的视觉和多模态模型来说仍然具有挑战性。本文还利用多模态大语言模型（MLLM）的视觉推理和指令跟随能力，提出了一个无需训练的框架，用于从MLLM生成的图像和视频描述中产生可解释的嵌入。该框架在SOVABench以及多个空间和计数基准上取得了良好的性能，而对比视觉-语言模型通常在这些基准上表现不佳。代码、注释和构建基准的说明已公开。

🔬 方法详解

问题定义：现有视频检索基准主要关注场景级别的相似性，缺乏对监控视频中车辆行为（例如掉头、停车等）的细粒度区分能力。这使得它们难以应用于实际的车辆监控场景，无法有效识别异常行为或进行行为分析。现有方法在理解时间方向和区分相似行为方面存在痛点。

核心思路：论文的核心思路是利用多模态大语言模型（MLLM）的强大视觉理解和语言生成能力，将视频或图像转换为自然语言描述，然后从这些描述中提取嵌入向量。由于MLLM生成的描述具有可解释性，因此提取的嵌入也更易于理解和分析。这种方法避免了直接训练模型进行行为分类，而是利用了MLLM的预训练知识。

技术框架：该框架主要包含以下几个阶段：1) 输入视频或图像；2) 使用MLLM生成对视频或图像的自然语言描述；3) 从MLLM生成的描述中提取嵌入向量。具体来说，可以使用预训练的文本编码器（例如BERT或其变体）对描述进行编码，得到嵌入向量。整个过程是无需训练的，即不需要针对特定任务进行微调。

关键创新：最重要的技术创新点在于利用MLLM生成可解释的描述，并从中提取嵌入向量，从而实现无需训练的行为检索。与传统的对比视觉-语言模型相比，该方法更易于理解和调试，并且在一些对比视觉-语言模型表现不佳的任务上（例如空间和计数任务）表现更好。

关键设计：论文的关键设计在于如何有效地利用MLLM生成高质量的描述，以及如何从这些描述中提取有意义的嵌入向量。具体的技术细节包括：选择合适的MLLM模型，设计合适的prompt来引导MLLM生成描述，以及选择合适的文本编码器来提取嵌入向量。此外，SOVABench基准的构建也至关重要，它为评估模型的性能提供了标准化的平台。

📊 实验亮点

该方法在SOVABench基准测试上取得了显著成果，证明了MLLM在车辆行为理解方面的潜力。此外，该方法在空间和计数基准测试中也表现出色，超越了传统的对比视觉-语言模型。实验结果表明，利用MLLM生成可解释的描述是一种有效的行为检索方法。

🎯 应用场景

该研究成果可应用于智能交通、安防监控等领域，例如自动识别违章停车、车辆逆行等行为，辅助交通管理和治安维护。未来可扩展到行人行为分析、异常事件检测等更广泛的监控场景，提升城市安全管理水平。

📄 摘要（原文）

Automatic identification of events and recurrent behavior analysis are critical for video surveillance. However, most existing content-based video retrieval benchmarks focus on scene-level similarity and do not evaluate the action discrimination required in surveillance. To address this gap, we introduce SOVABench (Surveillance Opposite Vehicle Actions Benchmark), a real-world retrieval benchmark built from surveillance footage and centered on vehicle-related actions. SOVABench defines two evaluation protocols (inter-pair and intra-pair) to assess cross-action discrimination and temporal direction understanding. Although action distinctions are generally intuitive for human observers, our experiments show that they remain challenging for state-of-the-art vision and multimodal models. Leveraging the visual reasoning and instruction-following capabilities of Multimodal Large Language Models (MLLMs), we present a training-free framework for producing interpretable embeddings from MLLM-generated descriptions for both images and videos. The framework achieves strong performance on SOVABench as well as on several spatial and counting benchmarks where contrastive Vision-Language Models often fail. The code, annotations, and instructions to construct the benchmark are publicly available.

SOVABench: A Vehicle Surveillance Action Retrieval Benchmark for Multimodal Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册