Tell Model Where to Look: Mitigating Hallucinations in MLLMs by Vision-Guided Attention
作者: Jianfei Zhao, Feng Zhang, Xin Sun, Chong Feng, Zhixing Tan
分类: cs.CV
发布日期: 2025-11-25
备注: Under Review
💡 一句话要点
提出视觉引导注意力机制(VGA),缓解多模态大语言模型中的幻觉问题
🎯 匹配领域: 支柱三:空间感知 (Perception & SLAM)
关键词: 多模态大语言模型 视觉注意力 幻觉缓解 视觉引导 图像描述
📋 核心要点
- 多模态大语言模型(MLLM)的视觉注意力定位能力有限,导致产生幻觉,影响了模型性能。
- 提出视觉引导注意力(VGA)机制,通过构建精确的视觉基础,引导模型关注相关视觉区域,无需额外训练。
- 实验表明,VGA在多个MLLM和幻觉基准上实现了最先进的去幻觉性能,且延迟开销极低。
📝 摘要(中文)
视觉注意力是多模态大语言模型(MLLM)解释视觉信息的主要机制,但其有限的定位能力常常导致幻觉。我们观察到,尽管MLLM可以准确地从视觉token中提取视觉语义,但在后续推理过程中未能充分利用这一优势。为了解决这个局限性,我们提出了一种免训练的方法,即视觉引导注意力(VGA)。VGA首先通过利用视觉token的语义内容构建精确的视觉基础,然后使用这个基础来引导模型关注相关的视觉区域。在图像描述任务中,VGA通过抑制已经描述过的区域,在生成过程中动态地细化这种引导。在VGA中,每个token仅经历一次前向传递,引入的延迟开销可以忽略不计,仅为4.36%。此外,VGA完全兼容高效的注意力实现,如FlashAttention。在各种MLLM和多个幻觉基准上的大量实验表明,VGA实现了最先进的去幻觉性能。进一步的分析证实,显式的视觉引导在增强MLLM的视觉理解能力方面起着至关重要的作用。
🔬 方法详解
问题定义:多模态大语言模型(MLLM)在处理视觉信息时,虽然能够提取视觉语义,但由于视觉注意力机制的定位能力不足,容易产生幻觉,即生成与图像内容不符的信息。现有方法难以有效利用视觉token的语义信息,导致模型无法准确关注图像中的关键区域。
核心思路:论文的核心思路是利用视觉token的语义信息,构建精确的视觉基础(Visual Grounding),然后利用这个视觉基础来引导模型的注意力,使其更加关注图像中相关的区域。通过这种显式的视觉引导,可以减少模型产生幻觉的可能性。
技术框架:VGA方法主要包含两个阶段:视觉基础构建和注意力引导。首先,利用视觉token的语义内容构建视觉基础,确定图像中各个区域的重要性。然后,在模型的注意力机制中,利用构建的视觉基础来调整注意力权重,引导模型关注重要的视觉区域。在图像描述任务中,VGA还引入了动态细化机制,抑制已经描述过的区域,避免重复描述。
关键创新:VGA的关键创新在于提出了一种免训练的视觉引导方法,可以直接应用于现有的MLLM,无需重新训练模型。此外,VGA通过显式地利用视觉token的语义信息来构建视觉基础,从而更准确地引导模型的注意力。VGA与现有方法的本质区别在于,它不是通过隐式的方式学习视觉注意力,而是通过显式的方式引导模型关注相关的视觉区域。
关键设计:VGA方法中,视觉基础的构建方式是关键。论文中具体如何利用视觉token的语义信息构建视觉基础,以及如何将视觉基础融入到注意力机制中,这些细节决定了VGA的性能。此外,动态细化机制的设计也是一个关键点,需要有效地抑制已经描述过的区域,同时避免过度抑制导致信息丢失。论文中关于这些关键设计的具体实现细节(例如,视觉基础的计算方式、注意力权重的调整策略、动态细化机制的实现方式)需要进一步查阅原文。
📊 实验亮点
实验结果表明,VGA在多个MLLM和幻觉基准上实现了最先进的去幻觉性能。VGA引入的延迟开销极低,仅为4.36%,并且完全兼容高效的注意力实现,如FlashAttention。这些结果表明,VGA是一种有效且高效的去幻觉方法,具有很强的实用价值。
🎯 应用场景
该研究成果可广泛应用于图像描述、视觉问答、机器人导航等领域。通过减少多模态大语言模型中的幻觉,可以提高这些应用的可信度和可靠性。例如,在自动驾驶中,可以帮助模型更准确地理解周围环境,从而做出更安全的决策。在医疗诊断中,可以辅助医生分析医学影像,提高诊断的准确性。
📄 摘要(原文)
Visual attention serves as the primary mechanism through which MLLMs interpret visual information; however, its limited localization capability often leads to hallucinations. We observe that although MLLMs can accurately extract visual semantics from visual tokens, they fail to fully leverage this advantage during subsequent inference. To address this limitation, we propose Vision-Guided Attention (VGA), a training-free method that first constructs precise visual grounding by exploiting the semantic content of visual tokens, and then uses this grounding to guide the model's focus toward relevant visual regions. In image captioning, VGA further refines this guidance dynamically during generation by suppressing regions that have already been described. In VGA, each token undergoes only a single forward pass, introducing a negligible latency overhead of just 4.36\%. In addition, VGA is fully compatible with efficient attention implementations such as FlashAttention. Extensive experiments across diverse MLLMs and multiple hallucination benchmarks demonstrate that VGA achieves state-of-the-art dehallucination performance. Further analysis confirms that explicit visual guidance plays a crucial role in enhancing the visual understanding capabilities of MLLMs.