GeM-VG: Towards Generalized Multi-image Visual Grounding with Multimodal Large Language Models

作者: Shurong Zheng, Yousong Zhu, Hongyin Zhao, Fan Yang, Yufei Zhan, Ming Tang, Jinqiao Wang

分类: cs.CV, cs.AI

发布日期: 2026-01-08

💡 一句话要点

提出GeM-VG，一个用于广义多图视觉定位的多模态大语言模型。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多图视觉定位 多模态大语言模型 强化学习 思维链 数据集构建 跨图像推理

📋 核心要点

现有方法在多图定位任务中存在局限性，主要体现在对单目标定位的约束以及对实际任务类型支持的不足。
GeM-VG通过统一建模广义定位任务，并结合混合强化微调策略，提升模型在多图定位任务中的性能。
实验结果表明，GeM-VG在多图和单图定位任务中均取得了显著提升，并在通用多图理解方面保持了强大能力。

📝 摘要（中文）

多模态大语言模型(MLLMs)在单图定位和通用多图理解方面表现出令人印象深刻的进展。最近，一些方法开始解决多图定位问题。然而，由于缺乏对广义定位任务的统一建模，它们受到单目标定位和有限类型的实际任务的限制。因此，我们提出了GeM-VG，一个能够进行广义多图视觉定位的MLLM。为了支持这一点，我们根据它们对跨图像线索和推理的依赖性，系统地对现有的多图定位任务进行分类和组织，并引入了MG-Data-240K数据集，解决了现有数据集在目标数量和图像关系方面的局限性。为了应对稳健处理各种多图定位任务的挑战，我们进一步提出了一种混合强化微调策略，该策略集成了思维链(CoT)推理和直接回答，考虑了它们的互补优势。该策略采用了一种类似于R1的算法，由精心设计的基于规则的奖励指导，有效地增强了模型的整体感知和推理能力。大量的实验证明了我们模型卓越的广义定位能力。对于多图定位，它在MIG-Bench和MC-Bench上分别优于之前领先的MLLM 2.0%和9.7%。在单图定位中，它在ODINW上比基础模型提高了9.1%。此外，我们的模型在通用多图理解方面保持了强大的能力。

🔬 方法详解

问题定义：论文旨在解决多图视觉定位任务中，现有方法无法有效处理复杂场景、缺乏统一建模以及数据集规模和多样性不足的问题。现有方法主要痛点在于对单目标定位的约束，以及对实际任务类型支持的不足，限制了其泛化能力。

核心思路：论文的核心思路是构建一个能够进行广义多图视觉定位的多模态大语言模型（MLLM），即GeM-VG。通过统一建模各种多图定位任务，并利用混合强化微调策略，提升模型在复杂场景下的感知和推理能力。这样设计的目的是为了克服现有方法的局限性，实现更广泛的应用。

技术框架：GeM-VG的整体框架包含以下几个主要模块：1) 多图定位任务的系统分类和组织，根据跨图像线索和推理的依赖性进行划分；2) MG-Data-240K数据集的构建，用于解决现有数据集在目标数量和图像关系方面的局限性；3) 混合强化微调策略，集成思维链（CoT）推理和直接回答，利用R1-like算法和基于规则的奖励机制，提升模型的感知和推理能力。

关键创新：论文最重要的技术创新点在于提出了GeM-VG模型以及相应的混合强化微调策略。与现有方法相比，GeM-VG能够统一建模各种多图定位任务，并利用强化学习提升模型的泛化能力。混合强化微调策略结合了CoT推理和直接回答的优势，并通过精心设计的奖励机制，有效地引导模型学习。

关键设计：混合强化微调策略是关键设计之一。该策略采用R1-like算法，并设计了基于规则的奖励函数，用于指导模型的学习过程。奖励函数的设计考虑了定位的准确性、推理的合理性等因素。此外，MG-Data-240K数据集的构建也至关重要，它提供了丰富多样的训练数据，有助于提升模型的泛化能力。具体参数设置和网络结构细节在论文中未详细描述，属于未知信息。

📊 实验亮点

GeM-VG在多图定位任务中表现出色，在MIG-Bench和MC-Bench上分别超越了之前的领先MLLM 2.0%和9.7%。在单图定位任务中，GeM-VG在ODINW数据集上比基础模型提升了9.1%。这些实验结果充分证明了GeM-VG在广义多图视觉定位方面的优越性能。

🎯 应用场景

该研究成果可应用于智能安防、自动驾驶、机器人导航等领域。例如，在智能安防中，可以利用多摄像头信息进行目标跟踪和行为分析；在自动驾驶中，可以融合多个传感器数据进行环境感知和路径规划；在机器人导航中，可以实现复杂环境下的目标定位和任务执行。该研究具有重要的实际应用价值和广阔的未来发展前景。

📄 摘要（原文）

Multimodal Large Language Models (MLLMs) have demonstrated impressive progress in single-image grounding and general multi-image understanding. Recently, some methods begin to address multi-image grounding. However, they are constrained by single-target localization and limited types of practical tasks, due to the lack of unified modeling for generalized grounding tasks. Therefore, we propose GeM-VG, an MLLM capable of Generalized Multi-image Visual Grounding. To support this, we systematically categorize and organize existing multi-image grounding tasks according to their reliance of cross-image cues and reasoning, and introduce the MG-Data-240K dataset, addressing the limitations of existing datasets regarding target quantity and image relation. To tackle the challenges of robustly handling diverse multi-image grounding tasks, we further propose a hybrid reinforcement finetuning strategy that integrates chain-of-thought (CoT) reasoning and direct answering, considering their complementary strengths. This strategy adopts an R1-like algorithm guided by a carefully designed rule-based reward, effectively enhancing the model's overall perception and reasoning capabilities. Extensive experiments demonstrate the superior generalized grounding capabilities of our model. For multi-image grounding, it outperforms the previous leading MLLMs by 2.0% and 9.7% on MIG-Bench and MC-Bench, respectively. In single-image grounding, it achieves a 9.1% improvement over the base model on ODINW. Furthermore, our model retains strong capabilities in general multi-image understanding.

GeM-VG: Towards Generalized Multi-image Visual Grounding with Multimodal Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册