SOVABench: A Vehicle Surveillance Action Retrieval Benchmark for Multimodal Large Language Models
作者: Oriol Rabasseda, Zenjie Li, Kamal Nasrollahi, Sergio Escalera
分类: cs.CV
发布日期: 2026-01-08
备注: This work has been accepted at Real World Surveillance: Applications and Challenges, 6th (in WACV Workshops)
💡 一句话要点
提出SOVABench车辆监控行为检索基准,用于评估多模态大语言模型
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 车辆监控 行为检索 多模态大语言模型 视觉推理 零样本学习
📋 核心要点
- 现有视频检索基准缺乏对监控视频中车辆行为细粒度区分的评估,无法满足实际需求。
- 利用多模态大语言模型生成可解释的描述,并从中提取嵌入,实现无需训练的行为检索。
- SOVABench基准测试表明,该方法在车辆行为检索及空间、计数任务上表现优异。
📝 摘要(中文)
本文提出了SOVABench(Surveillance Opposite Vehicle Actions Benchmark),这是一个真实的车辆相关行为检索基准,构建自监控录像。现有基于内容的视频检索基准大多关注场景级别的相似性,而忽略了监控中所需的行为区分能力。SOVABench定义了两种评估协议(pair间和pair内),以评估跨行为区分和时间方向理解能力。实验表明,尽管行为区分对人类观察者来说通常很直观,但对于最先进的视觉和多模态模型来说仍然具有挑战性。本文还利用多模态大语言模型(MLLM)的视觉推理和指令跟随能力,提出了一个无需训练的框架,用于从MLLM生成的图像和视频描述中产生可解释的嵌入。该框架在SOVABench以及多个空间和计数基准上取得了良好的性能,而对比视觉-语言模型通常在这些基准上表现不佳。代码、注释和构建基准的说明已公开。
🔬 方法详解
问题定义:现有视频检索基准主要关注场景级别的相似性,缺乏对监控视频中车辆行为(例如掉头、停车等)的细粒度区分能力。这使得它们难以应用于实际的车辆监控场景,无法有效识别异常行为或进行行为分析。现有方法在理解时间方向和区分相似行为方面存在痛点。
核心思路:论文的核心思路是利用多模态大语言模型(MLLM)的强大视觉理解和语言生成能力,将视频或图像转换为自然语言描述,然后从这些描述中提取嵌入向量。由于MLLM生成的描述具有可解释性,因此提取的嵌入也更易于理解和分析。这种方法避免了直接训练模型进行行为分类,而是利用了MLLM的预训练知识。
技术框架:该框架主要包含以下几个阶段:1) 输入视频或图像;2) 使用MLLM生成对视频或图像的自然语言描述;3) 从MLLM生成的描述中提取嵌入向量。具体来说,可以使用预训练的文本编码器(例如BERT或其变体)对描述进行编码,得到嵌入向量。整个过程是无需训练的,即不需要针对特定任务进行微调。
关键创新:最重要的技术创新点在于利用MLLM生成可解释的描述,并从中提取嵌入向量,从而实现无需训练的行为检索。与传统的对比视觉-语言模型相比,该方法更易于理解和调试,并且在一些对比视觉-语言模型表现不佳的任务上(例如空间和计数任务)表现更好。
关键设计:论文的关键设计在于如何有效地利用MLLM生成高质量的描述,以及如何从这些描述中提取有意义的嵌入向量。具体的技术细节包括:选择合适的MLLM模型,设计合适的prompt来引导MLLM生成描述,以及选择合适的文本编码器来提取嵌入向量。此外,SOVABench基准的构建也至关重要,它为评估模型的性能提供了标准化的平台。
📊 实验亮点
该方法在SOVABench基准测试上取得了显著成果,证明了MLLM在车辆行为理解方面的潜力。此外,该方法在空间和计数基准测试中也表现出色,超越了传统的对比视觉-语言模型。实验结果表明,利用MLLM生成可解释的描述是一种有效的行为检索方法。
🎯 应用场景
该研究成果可应用于智能交通、安防监控等领域,例如自动识别违章停车、车辆逆行等行为,辅助交通管理和治安维护。未来可扩展到行人行为分析、异常事件检测等更广泛的监控场景,提升城市安全管理水平。
📄 摘要(原文)
Automatic identification of events and recurrent behavior analysis are critical for video surveillance. However, most existing content-based video retrieval benchmarks focus on scene-level similarity and do not evaluate the action discrimination required in surveillance. To address this gap, we introduce SOVABench (Surveillance Opposite Vehicle Actions Benchmark), a real-world retrieval benchmark built from surveillance footage and centered on vehicle-related actions. SOVABench defines two evaluation protocols (inter-pair and intra-pair) to assess cross-action discrimination and temporal direction understanding. Although action distinctions are generally intuitive for human observers, our experiments show that they remain challenging for state-of-the-art vision and multimodal models. Leveraging the visual reasoning and instruction-following capabilities of Multimodal Large Language Models (MLLMs), we present a training-free framework for producing interpretable embeddings from MLLM-generated descriptions for both images and videos. The framework achieves strong performance on SOVABench as well as on several spatial and counting benchmarks where contrastive Vision-Language Models often fail. The code, annotations, and instructions to construct the benchmark are publicly available.