LLandMark: A Multi-Agent Framework for Landmark-Aware Multimodal Interactive Video Retrieval

📄 arXiv: 2603.02888v1 📥 PDF

作者: Minh-Chi Phung, Thien-Bao Le, Cam-Tu Tran-Thi, Thu-Dieu Nguyen-Thi, Vu-Hung Dao

分类: cs.CV

发布日期: 2026-03-03

备注: Accepted by AAAI 2026 Workshop on New Frontiers in Information Retrieval

期刊: AAAI 2026 Workshop on New Frontiers in Information Retrieval


💡 一句话要点

LLandMark:面向地标感知的多模态交互视频检索多智能体框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态视频检索 地标感知 多智能体系统 大型语言模型 CLIP模型 越南语OCR 知识图谱

📋 核心要点

  1. 现有视频检索系统难以有效处理复杂查询,尤其是在多模态理解和领域知识集成方面存在不足。
  2. LLandMark框架通过多智能体协作,利用地标知识和大型语言模型,提升了视频检索的准确性和适应性。
  3. 实验结果表明,LLandMark在越南场景下实现了文化相关的检索性能,并具有良好的可解释性。

📝 摘要(中文)

本文提出LLandMark,一个模块化的多智能体框架,用于地标感知的多模态视频检索,以处理现实世界中的复杂查询。该框架包含多个专业智能体,协同完成四个阶段:查询解析与规划、地标推理、多模态检索和重排序答案合成。关键组件是地标知识智能体,它检测文化或空间地标,并将其转化为描述性的视觉提示,从而增强基于CLIP的越南场景语义匹配。为了扩展能力,引入了LLM辅助的图像到图像流程,其中大型语言模型(Gemini 2.5 Flash)自主检测地标,生成图像搜索查询,检索代表性图像,并执行基于CLIP的视觉相似性匹配,无需手动输入图像。此外,利用Gemini和LlamaIndex的OCR优化模块改进了越南语文本识别。实验结果表明,LLandMark实现了自适应、文化相关的和可解释的检索性能。

🔬 方法详解

问题定义:当前视频检索系统面临的挑战在于如何有效地处理复杂的多模态查询,尤其是在需要结合领域知识(如地标信息)进行推理的情况下。现有方法通常缺乏对文化和空间地标的感知能力,导致检索结果不准确或不相关。此外,对于越南语等特定语言环境,OCR识别的准确性也是一个瓶颈。

核心思路:LLandMark的核心思路是构建一个多智能体框架,每个智能体负责特定的任务,通过协作完成复杂的视频检索任务。该框架利用地标知识智能体来检测和理解视频中的地标信息,并结合大型语言模型来生成视觉提示和优化OCR识别,从而提高检索的准确性和相关性。

技术框架:LLandMark框架包含四个主要阶段:1) 查询解析与规划:解析用户查询并规划检索策略。2) 地标推理:利用地标知识智能体检测地标并生成视觉提示。3) 多模态检索:结合文本和视觉信息进行检索。4) 重排序答案合成:对检索结果进行重排序并合成最终答案。其中,地标知识智能体和LLM辅助的图像到图像流程是关键组成部分。

关键创新:LLandMark的关键创新在于:1) 引入了地标知识智能体,能够检测和理解视频中的文化和空间地标,并将其转化为视觉提示,从而增强了语义匹配能力。2) 提出了LLM辅助的图像到图像流程,利用大型语言模型自动检测地标、生成图像搜索查询和执行视觉相似性匹配,无需手动输入图像。3) 结合Gemini和LlamaIndex优化了越南语OCR识别。

关键设计:地标知识智能体使用预训练的CLIP模型进行语义匹配,并结合领域知识库进行地标识别。LLM辅助的图像到图像流程使用Gemini 2.5 Flash进行地标检测和图像搜索查询生成,并使用CLIP模型进行视觉相似性匹配。OCR优化模块利用Gemini进行文本纠错和LlamaIndex进行知识检索。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LLandMark框架在越南场景下实现了自适应、文化相关的和可解释的检索性能。通过引入地标知识智能体和LLM辅助的图像到图像流程,显著提高了检索的准确性和相关性。具体的性能数据和对比基线信息在论文中给出,但摘要中未明确提及具体的提升幅度。

🎯 应用场景

LLandMark可应用于旅游视频检索、文化遗产保护、城市规划等领域。通过理解视频中的地标信息和文化背景,可以为用户提供更准确、更相关的检索结果。该研究的成果有助于提升视频检索系统的智能化水平,并促进多模态信息检索技术的发展。

📄 摘要(原文)

The increasing diversity and scale of video data demand retrieval systems capable of multimodal understanding, adaptive reasoning, and domain-specific knowledge integration. This paper presents LLandMark, a modular multi-agent framework for landmark-aware multimodal video retrieval to handle real-world complex queries. The framework features specialized agents that collaborate across four stages: query parsing and planning, landmark reasoning, multimodal retrieval, and reranked answer synthesis. A key component, the Landmark Knowledge Agent, detects cultural or spatial landmarks and reformulates them into descriptive visual prompts, enhancing CLIP-based semantic matching for Vietnamese scenes. To expand capabilities, we introduce an LLM-assisted image-to-image pipeline, where a large language model (Gemini 2.5 Flash) autonomously detects landmarks, generates image search queries, retrieves representative images, and performs CLIP-based visual similarity matching, removing the need for manual image input. In addition, an OCR refinement module leveraging Gemini and LlamaIndex improves Vietnamese text recognition. Experimental results show that LLandMark achieves adaptive, culturally grounded, and explainable retrieval performance.