Mitigating Multimodal Hallucinations via Gradient-based Self-Reflection

📄 arXiv: 2509.03113v3 📥 PDF

作者: Shan Wang, Maying Shen, Nadine Chang, Chuong Nguyen, Hongdong Li, Jose M. Alvarez

分类: cs.CV, cs.CL

发布日期: 2025-09-03 (更新: 2025-11-13)


💡 一句话要点

提出基于梯度的自反思方法GACD,缓解多模态大语言模型中的幻觉问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 幻觉缓解 梯度分析 视觉基础 约束解码

📋 核心要点

  1. 多模态大语言模型易受幻觉影响,输出与视觉输入不符,主要原因是文本-视觉偏差和共现偏差。
  2. GACD通过梯度分析token贡献,抑制虚假视觉特征,并重新平衡跨模态贡献,从而缓解幻觉。
  3. 实验表明,GACD能有效减少幻觉,提升多模态大语言模型输出的视觉基础,无需微调。

📝 摘要(中文)

多模态大语言模型在各种任务中表现出色,但仍然容易产生幻觉,即输出内容与视觉输入不符。这个问题可以归因于两种主要的偏差:文本-视觉偏差(过度依赖提示和先前的输出)和共现偏差(频繁配对对象之间的虚假相关性)。我们提出了一种基于推理的方法,即基于梯度的影响感知约束解码(GACD),它无需辅助模型即可解决这两种偏差,并且可以轻松应用于现有模型而无需微调。我们方法的核心是偏差估计,它使用一阶泰勒梯度来理解各个token(视觉特征和文本token)对当前输出的贡献。基于此分析,GACD通过两个组成部分来缓解幻觉:(1) 抑制与输出对象相关的虚假视觉特征,以及 (2) 通过加强相对于文本的视觉特征来重新平衡跨模态贡献。跨多个基准的实验表明,GACD有效地减少了幻觉并提高了MLLM输出的视觉基础。

🔬 方法详解

问题定义:多模态大语言模型(MLLM)在生成内容时,容易产生与视觉输入不相关的“幻觉”,即生成的内容在图像中并不存在。现有的方法要么依赖于额外的模型进行验证,要么需要对模型进行微调,增加了计算成本和部署难度。论文旨在解决MLLM中由于文本-视觉偏差(过度依赖文本提示)和共现偏差(对象间的虚假关联)导致的幻觉问题。

核心思路:论文的核心思路是通过分析模型输出对不同输入token(包括文本token和视觉特征)的依赖程度,来识别并抑制导致幻觉的因素。具体来说,利用一阶泰勒展开近似计算每个token对最终输出的影响,从而判断哪些视觉特征是“虚假的”,哪些文本token过度影响了输出。通过抑制这些“有害”的token,可以引导模型更加关注真实的视觉信息,减少幻觉的产生。

技术框架:GACD方法主要包含以下几个阶段:1) 前向传播:输入图像和文本提示,通过MLLM得到初始的输出预测。2) 梯度计算:计算输出预测对每个输入token(视觉特征和文本token)的梯度。3) 偏差估计:利用梯度信息估计每个token对输出的影响程度,识别出具有高影响力的虚假视觉特征和过度影响的文本token。4) 约束解码:在解码过程中,根据偏差估计的结果,对token的概率分布进行调整,抑制虚假视觉特征,并加强真实视觉特征的贡献,从而生成更符合视觉输入的输出。

关键创新:GACD的关键创新在于利用梯度信息进行偏差估计,从而实现对幻觉的抑制。与现有方法相比,GACD无需额外的模型或微调,可以直接应用于现有的MLLM。此外,GACD能够同时解决文本-视觉偏差和共现偏差,具有更强的通用性。

关键设计:GACD使用一阶泰勒展开来近似计算每个token对输出的影响,公式为:Δy ≈ ∇y * Δx,其中Δy表示输出的变化,∇y表示输出对输入x的梯度,Δx表示输入的微小变化。通过分析∇y的大小和方向,可以判断每个token对输出的影响程度。在约束解码阶段,GACD通过调整token的概率分布来抑制虚假视觉特征和加强真实视觉特征的贡献。具体的调整策略可以根据不同的任务和模型进行调整。

📊 实验亮点

实验结果表明,GACD在多个基准数据集上显著降低了MLLM的幻觉率,并提高了视觉基础的准确性。例如,在图像描述生成任务中,GACD能够将幻觉率降低10%以上,同时保持或略微提升生成文本的质量。与其他基线方法相比,GACD在性能和效率方面都具有优势。

🎯 应用场景

该研究成果可广泛应用于需要视觉基础的多模态任务中,例如图像描述生成、视觉问答、机器人导航等。通过减少幻觉,可以提高MLLM在这些任务中的可靠性和准确性,从而提升用户体验和应用价值。未来,该方法有望进一步扩展到更复杂的场景,例如视频理解和三维场景理解。

📄 摘要(原文)

Multimodal large language models achieve strong performance across diverse tasks but remain prone to hallucinations, where outputs are not grounded in visual inputs. This issue can be attributed to two main biases: text-visual bias, the overreliance on prompts and prior outputs, and co-occurrence bias, spurious correlations between frequently paired objects. We propose Gradient-based Influence-Aware Constrained Decoding (GACD), an inference-based method, that addresses both biases without auxiliary models, and is readily applicable to existing models without finetuning. The core of our approach is bias estimation, which uses first-order Taylor gradients to understand the contribution of individual tokens-visual features and text tokens-to the current output. Based on this analysis, GACD mitigates hallucinations through two components: (1) suppressing spurious visual features correlated with the output objects, and (2) rebalancing cross-modal contributions by strengthening visual features relative to text. Experiments across multiple benchmarks demonstrate that GACD effectively reduces hallucinations and improves the visual grounding of MLLM outputs.