FOCUS: Internal MLLM Representations for Efficient Fine-Grained Visual Question Answering

作者: Liangyu Zhong, Fabio Rosenthal, Joachim Sicking, Fabian Hüger, Thorsten Bagdonat, Hanno Gottschalk, Leo Schwinn

分类: cs.CV

发布日期: 2025-06-26 (更新: 2025-10-29)

备注: Accepted by NeurIPS 2025 - main track. Project page: https://focus-mllm-vqa.github.io/

💡 一句话要点

提出FOCUS以解决细粒度视觉问答中的视觉裁剪问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉问答 多模态大语言模型 视觉裁剪 细粒度识别 对象相关性图

📋 核心要点

现有的视觉问答方法在处理小图像细节时效率低下，且需要任务特定的微调。
FOCUS通过无训练的视觉裁剪方法，利用MLLM内部表示来优化图像区域搜索过程。
FOCUS在多个细粒度VQA数据集上表现优异，超越了传统方法，并显著降低计算需求。

📝 摘要（中文）

尽管多模态大语言模型（MLLMs）在图像-文本输入的感知和推理能力上表现出色，但在关注小图像细节的视觉问答（VQA）中仍然面临挑战。现有的视觉裁剪技术存在任务特定微调需求、低效率和与高效注意力实现不兼容等限制。为了解决这些问题，本文提出了一种无训练的视觉裁剪方法FOCUS，利用MLLM内部表示来指导最相关图像区域的搜索。FOCUS通过四个步骤实现：首先识别VQA提示中的目标对象；其次，使用键值（KV）缓存计算对象相关性图；然后，根据该图提出并排名相关图像区域；最后，使用排名最高的区域执行细粒度VQA任务。FOCUS在四个细粒度VQA数据集和三种类型的MLLM上表现出色，超越了三种流行的视觉裁剪方法，并在计算效率上要求减少3到6.5倍。

🔬 方法详解

问题定义：本文旨在解决细粒度视觉问答中对小图像细节的处理问题。现有方法面临的痛点包括任务特定微调的需求、低效率的无信息搜索以及与高效注意力实现的不兼容性。

核心思路：FOCUS的核心思路是利用MLLM内部表示进行无训练的视觉裁剪，优化相关图像区域的搜索过程。通过这种方式，FOCUS能够在不需要额外训练的情况下，提升VQA任务的效率和准确性。

技术框架：FOCUS的整体架构包括四个主要步骤：首先识别VQA提示中的目标对象；其次计算对象相关性图；然后根据该图提出并排名相关图像区域；最后执行细粒度VQA任务。

关键创新：FOCUS的主要创新在于其无训练的视觉裁剪方法，利用MLLM内部的键值缓存进行对象相关性计算，这一设计使得FOCUS在效率和准确性上超越了现有的视觉裁剪方法。

关键设计：FOCUS的关键设计包括使用键值缓存来生成对象相关性图，以及基于该图进行图像区域的排名。这些设计使得FOCUS在计算上更为高效，且能够在多个数据集上取得优异的表现。

📊 实验亮点

FOCUS在四个细粒度VQA数据集上表现出色，超越了三种流行的视觉裁剪方法，且在计算效率上要求减少3到6.5倍。其性能与最佳基线ZoomEye相当，显示出其在准确性和效率上的显著提升。

🎯 应用场景

FOCUS的研究成果在多个领域具有潜在应用价值，包括智能问答系统、图像检索和人机交互等。通过提升细粒度视觉问答的效率和准确性，该方法能够为用户提供更为精准的信息检索和交互体验，推动相关技术的发展与应用。

📄 摘要（原文）

While Multimodal Large Language Models (MLLMs) offer strong perception and reasoning capabilities for image-text input, Visual Question Answering (VQA) focusing on small image details still remains a challenge. Although visual cropping techniques seem promising, recent approaches have several limitations: the need for task-specific fine-tuning, low efficiency due to uninformed exhaustive search, or incompatibility with efficient attention implementations. We address these shortcomings by proposing a training-free visual cropping method, dubbed FOCUS, that leverages MLLM-internal representations to guide the search for the most relevant image region. This is accomplished in four steps: first, we identify the target object(s) in the VQA prompt; second, we compute an object relevance map using the key-value (KV) cache; third, we propose and rank relevant image regions based on the map; and finally, we perform the fine-grained VQA task using the top-ranked region. As a result of this informed search strategy, FOCUS achieves strong performance across four fine-grained VQA datasets and three types of MLLMs. It outperforms three popular visual cropping methods in both accuracy and efficiency, and matches the best-performing baseline, ZoomEye, while requiring 3 - 6.5 x less compute.

FOCUS: Internal MLLM Representations for Efficient Fine-Grained Visual Question Answering

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册