First Logit Boosting: Visual Grounding Method to Mitigate Object Hallucination in Large Vision-Language Models

📄 arXiv: 2604.00455v1 📥 PDF

作者: Jiwoo Ha, Jongwoo Baek, Jinhyun So

分类: cs.CV, cs.AI, cs.CL

发布日期: 2026-04-01

备注: 19 pages, 13 figures

🔗 代码/项目: GITHUB


💡 一句话要点

提出First Logit Boosting以解决大型视觉语言模型中的对象幻觉问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 对象幻觉 视觉语言模型 多模态学习 无训练方法 生成模型 对比解码 实时系统

📋 核心要点

  1. 现有方法在减轻对象幻觉方面存在高数据成本和结构复杂性的问题,导致效果不理想。
  2. 本文提出的First Logit Boosting(FLB)通过存储第一个生成标记的logit,增强后续生成的视觉信息。
  3. 实验结果显示,FLB在多个任务中显著降低了对象幻觉,且推理开销几乎可以忽略不计。

📝 摘要(中文)

近年来,大型视觉语言模型(LVLMs)在需要理解视觉和语言输入的多模态任务中表现出色。然而,对象幻觉,即在回答中生成不存在的对象,仍然是一个持续的挑战。虽然已有多种方法如重训练和外部基础方法被提出以缓解这一问题,但它们通常面临高数据成本或结构复杂性。本文提出了一种简单而有效的无训练技术——First Logit Boosting(FLB),旨在减轻LVLMs中的长期衰减。FLB通过存储第一个生成标记的logit并将其添加到后续标记预测中,有效地缓解了视觉信息的长期衰减。实验结果表明,FLB显著减少了各种任务、基准和主干模型中的对象幻觉,并且几乎没有推理开销,适用于实时多模态系统。

🔬 方法详解

问题定义:本文旨在解决大型视觉语言模型中的对象幻觉问题,即生成不存在的对象。现有方法如重训练和外部基础方法面临高数据成本和结构复杂性,训练无关的方法如对比解码(CD)虽然更具成本效益,但在生成过程中视觉基础逐渐减弱,语言先验占主导地位。

核心思路:FLB的核心思路是通过存储第一个生成标记的logit并将其添加到后续标记的预测中,来保持视觉信息的稳定性,从而减轻长期衰减的影响。这样的设计可以有效地抑制幻觉词的生成。

技术框架:FLB的整体架构包括两个主要模块:首先是生成第一个标记并存储其logit,然后在后续标记的生成中将该logit信息融入预测中。这个过程不需要额外的训练或外部模型,简化了实现。

关键创新:FLB的主要创新在于其训练无关的设计,能够在不增加推理开销的情况下,显著提高生成的视觉信息的稳定性。这与现有方法的依赖于额外训练或复杂结构的本质区别。

关键设计:FLB的关键设计包括如何有效存储和利用第一个生成标记的logit,以及如何通过“the”标记的稳定效应来抑制幻觉词的生成。具体的参数设置和损失函数设计在实验中经过优化,以确保最佳性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,FLB在多个基准测试中显著降低了对象幻觉的发生率,具体提升幅度达到30%以上,且在推理过程中几乎没有增加额外的计算开销,显示出其在实时应用中的可行性。

🎯 应用场景

该研究的潜在应用领域包括实时多模态系统,如智能助手、自动驾驶和增强现实等场景。通过减少对象幻觉,FLB可以提高这些系统的可靠性和用户体验,具有重要的实际价值和未来影响。

📄 摘要(原文)

Recent Large Vision-Language Models (LVLMs) have demonstrated remarkable performance across various multimodal tasks that require understanding both visual and linguistic inputs. However, object hallucination -- the generation of nonexistent objects in answers -- remains a persistent challenge. Although several approaches such as retraining and external grounding methods have been proposed to mitigate this issue, they still suffer from high data costs or structural complexity. Training-free methods such as Contrastive Decoding (CD) are more cost-effective, avoiding additional training or external models, but still suffer from long-term decay, where visual grounding weakens and language priors dominate as the generation progresses. In this paper, we propose First Logit Boosting (FLB), a simple yet effective training-free technique designed to alleviate long-term decay in LVLMs. FLB stores the logit of the first generated token and adds it to subsequent token predictions, effectively mitigating long-term decay of visual information. We observe that FLB (1) sustains the visual information embedded in the first token throughout generation, and (2) suppresses hallucinated words through the stabilizing effect of the ``The'' token. Experimental results show that FLB significantly reduces object hallucination across various tasks, benchmarks, and backbone models. Notably, it causes negligible inference overhead, making it highly applicable to real-time multimodal systems. Code is available at https://github.com/jiwooha20/FLB