MIRG-RL: Multi-Image Reasoning and Grounding with Reinforcement Learning
作者: Lihao Zheng, Jiawei Chen, Xintian Shen, Hao Ma, Tao Wei
分类: cs.CV
发布日期: 2025-09-26
🔗 代码/项目: GITHUB
💡 一句话要点
提出MIRG-RL框架,利用强化学习提升多图推理和定位能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 多图推理 视觉语言模型 强化学习 图像定位 跨图像关系
📋 核心要点
- 现有大型视觉语言模型缺乏有效的跨图像推理能力,且在跨图像参考奖励建模方面存在不足。
- MIRG-RL框架通过结合监督微调和图像感知的强化学习优化,逐步提升模型的多图推理能力。
- 实验结果表明,MIRG-RL在多图定位任务上取得了SOTA性能,并在跨图像推理任务上超越了现有最佳方法。
📝 摘要(中文)
本文提出了一种统一的框架——基于强化学习的多图推理和定位(MIRG-RL),旨在解决大型视觉语言模型(LVLMs)在多图推理和定位中面临的两个关键挑战:缺乏跨图像推理能力和跨图像参考奖励建模不足。MIRG-RL采用两阶段训练范式,结合了带标注轨迹的监督微调和图像感知的强化学习优化,逐步发展多图推理能力。此外,本文创新性地提出了一种构建轨迹数据的方法,该方法集成了对象级别和图像级别的标注信息,并使用该方法生成了一个轻量级的推理增强数据集。为了有效解决跨图像歧义,本文设计了一种具有对象和图像双重奖励函数的图像感知RL策略。实验结果表明,MIRG-RL在多图定位基准测试中取得了最先进(SOTA)的性能,在跨图像推理任务中达到了64.82%,超过了之前最好的方法1%。代码和数据集已发布。
🔬 方法详解
问题定义:现有的大型视觉语言模型(LVLMs)在处理多图推理和定位任务时,面临着两个主要的挑战。一是缺乏有效的跨图像推理能力,难以理解图像之间的复杂关系。二是跨图像参考奖励建模不足,无法准确地评估模型在多图环境下的推理和定位性能。这些问题限制了LVLMs在需要综合多张图像信息才能做出决策的应用场景中的表现。
核心思路:MIRG-RL的核心思路是利用强化学习(RL)来提升模型的多图推理和定位能力。通过将多图推理和定位任务建模为一个序列决策过程,并设计合适的奖励函数,引导模型学习如何有效地利用多张图像的信息进行推理和定位。同时,结合监督微调,利用标注数据预训练模型,使其具备初步的推理能力,再通过强化学习进一步优化。
技术框架:MIRG-RL框架包含两个主要的训练阶段:监督微调和强化学习优化。在监督微调阶段,使用带有标注轨迹的数据集对模型进行预训练,使其学习如何根据图像和文本信息进行推理和定位。在强化学习优化阶段,使用图像感知的RL策略,根据环境反馈的奖励信号,不断调整模型的参数,使其能够更好地处理多图推理和定位任务。该框架还包括一个轨迹数据构建模块,用于生成包含对象级别和图像级别标注信息的推理增强数据集。
关键创新:MIRG-RL的关键创新在于以下几个方面:一是提出了一个统一的框架,将多图推理和定位任务建模为一个序列决策过程,并利用强化学习进行优化。二是设计了一种图像感知的RL策略,能够有效地处理跨图像歧义。三是提出了一种构建轨迹数据的方法,该方法集成了对象级别和图像级别的标注信息,并生成了一个轻量级的推理增强数据集。
关键设计:在强化学习优化阶段,MIRG-RL采用了双重奖励函数,分别针对对象和图像。对象级别的奖励用于鼓励模型准确地定位目标对象,图像级别的奖励用于鼓励模型有效地利用多张图像的信息进行推理。此外,MIRG-RL还设计了一种图像感知的RL策略,该策略能够根据当前图像的状态,动态地调整模型的行为。具体的网络结构和参数设置在论文中有详细描述,但未在摘要中体现。
📊 实验亮点
MIRG-RL在多图定位基准测试中取得了最先进(SOTA)的性能,在跨图像推理任务中达到了64.82%,超过了之前最好的方法1%。这一结果表明,MIRG-RL框架能够有效地提升模型的多图推理和定位能力,并在复杂视觉任务中取得显著的性能提升。
🎯 应用场景
MIRG-RL在需要综合多张图像信息进行推理和定位的场景中具有广泛的应用前景,例如:智能安防(通过监控摄像头识别异常行为)、自动驾驶(通过多个摄像头感知周围环境)、医学影像分析(结合多张医学图像进行疾病诊断)等。该研究有助于提升视觉语言模型在复杂视觉环境下的理解和推理能力,推动人工智能技术在实际应用中的发展。
📄 摘要(原文)
Multi-image reasoning and grounding require understanding complex cross-image relationships at both object levels and image levels. Current Large Visual Language Models (LVLMs) face two critical challenges: the lack of cross-image reasoning capabilities and insufficient cross-image reference reward modeling. To address these issues, we propose a unified framework - Multi-Image Reasoning and Grounding with Reinforcement Learning (MIRG-RL). Specifically, our two-stage training paradigm combines supervised fine-tuning with annotated trajectories and image-aware reinforcement learning optimization, progressively developing multi-image reasoning capabilities. Furthermore, we innovatively propose a method for constructing the trajectory data, which integrates object-level and image-level annotation information, and use this method to generate a lightweight reasoning-enhanced dataset. To effectively resolve cross-image ambiguities, we design an image-aware RL policy with dual reward functions for objects and images. Experiments demonstrate that MIRG-RL achieves state-of-the-art (SOTA) performance in multi-image grounding benchmarks, attaining 64.82% on cross-image reasoning tasks - exceeding the previous best method by 1%. The code and dataset have been released at https://github.com/ZEUS2035/MIRG-RL.