EVENT-Retriever: Event-Aware Multimodal Image Retrieval for Realistic Captions

作者: Dinh-Khoi Vo, Van-Loc Nguyen, Minh-Triet Tran, Trung-Nghia Le

分类: cs.CV

发布日期: 2025-08-31

备注: ACM Multimedia 2025

DOI: 10.1145/3746027.3762038

🔗 代码/项目: GITHUB

💡 一句话要点

提出EVENT-Retriever以解决基于事件的多模态图像检索问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态检索 事件感知 语言模型 图像理解 信息检索 深度学习 上下文对齐

📋 核心要点

现有的视觉-语言检索方法在处理抽象事件和复杂叙述时表现不佳，难以理解潜在的事件语义和上下文。
本文提出了一种多阶段检索框架，结合文章检索、语言模型重排序和图像评分，增强了检索的准确性和鲁棒性。
系统在EVENTA 2025 Grand Challenge中取得了最高分，证明了其在复杂图像理解中的有效性和创新性。

📝 摘要（中文）

基于事件的图像检索面临重大挑战：模型不仅需理解视觉特征，还需掌握潜在事件语义、上下文及现实世界知识。传统的视觉-语言检索方法在处理抽象事件、隐含因果关系、时间上下文或复杂叙述时常显不足。为此，本文提出了一种多阶段检索框架，结合密集文章检索、事件感知语言模型重排序和高效图像集合，随后进行基于标题的语义匹配和排名感知选择。我们利用Qwen3进行文章搜索，Qwen3-Reranker进行上下文对齐，Qwen2-VL进行精确图像评分。通过使用互惠排名融合（RRF）进一步提升性能和鲁棒性。我们的系统在EVENTA 2025 Grand Challenge的私有测试集Track 2上取得了最高分，展示了语言推理与多模态检索结合在复杂现实图像理解中的有效性。

🔬 方法详解

问题定义：本文旨在解决基于事件的多模态图像检索问题，现有方法在处理复杂叙述和隐含因果关系时存在显著不足，难以有效理解图像与文本之间的关系。

核心思路：提出一种多阶段检索框架，通过结合密集文章检索和事件感知语言模型重排序，提升检索的准确性和上下文理解能力。

技术框架：整体架构包括多个主要模块：首先进行密集文章检索，然后通过Qwen3-Reranker进行上下文对齐，接着利用Qwen2-VL进行图像评分，最后通过标题引导的语义匹配和排名感知选择。

关键创新：最重要的创新在于将语言推理与多模态检索相结合，特别是在处理复杂的现实场景时，显著提升了检索的准确性和鲁棒性。

关键设计：在参数设置上，采用了互惠排名融合（RRF）技术，以融合来自不同配置的输出，增强系统的整体性能和稳定性。

📊 实验亮点

在EVENTA 2025 Grand Challenge的私有测试集Track 2中，系统取得了最高分，展示了与基线方法相比的显著性能提升，具体提升幅度未知，表明了其在复杂图像理解任务中的有效性。

🎯 应用场景

该研究在多模态图像检索领域具有广泛的应用潜力，尤其适用于需要理解复杂叙述和事件语义的场景，如社交媒体内容检索、新闻图像检索和智能监控等。未来，该技术可为图像理解和信息检索提供更高效的解决方案，推动相关领域的发展。

📄 摘要（原文）

Event-based image retrieval from free-form captions presents a significant challenge: models must understand not only visual features but also latent event semantics, context, and real-world knowledge. Conventional vision-language retrieval approaches often fall short when captions describe abstract events, implicit causality, temporal context, or contain long, complex narratives. To tackle these issues, we introduce a multi-stage retrieval framework combining dense article retrieval, event-aware language model reranking, and efficient image collection, followed by caption-guided semantic matching and rank-aware selection. We leverage Qwen3 for article search, Qwen3-Reranker for contextual alignment, and Qwen2-VL for precise image scoring. To further enhance performance and robustness, we fuse outputs from multiple configurations using Reciprocal Rank Fusion (RRF). Our system achieves the top-1 score on the private test set of Track 2 in the EVENTA 2025 Grand Challenge, demonstrating the effectiveness of combining language-based reasoning and multimodal retrieval for complex, real-world image understanding. The code is available at https://github.com/vdkhoi20/EVENT-Retriever.

EVENT-Retriever: Event-Aware Multimodal Image Retrieval for Realistic Captions

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册