Two Causes, Not One: Rethinking Omission and Fabrication Hallucinations in MLLMs
作者: Guangzong Si, Hao Yin, Xianfei Li, Qing Ding, Wenlong Liao, Tao He, Pai Peng
分类: cs.CV
发布日期: 2025-08-30
备注: Preprint,Underreview
💡 一句话要点
提出视觉潜力场校准以解决多模态大语言模型的幻觉问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 物体幻觉 视觉潜力场 幻觉缓解 跨模态表示 视觉特征映射 统计偏差
📋 核心要点
- 现有方法错误地假设遗漏和虚构幻觉有共同原因,导致解决方案效果不佳。
- 论文提出视觉潜力场校准(VPFC)方法,通过增强模型对视觉特征的信心来减少遗漏幻觉。
- 实验结果表明,VPFC方法有效降低了遗漏幻觉的发生,同时未增加虚构幻觉的数量。
📝 摘要(中文)
多模态大语言模型(MLLMs)取得了显著进展,但物体幻觉仍然是一个持续的挑战。现有方法基于错误的假设,认为遗漏和虚构幻觉有共同原因,往往导致遗漏减少但虚构增加。本文通过实验证明,遗漏幻觉源于在将视觉特征映射到语言表达时的信心不足,而虚构幻觉则是由于训练语料中的统计偏差导致的跨模态表示空间中的虚假关联。基于视觉注意力干预实验的发现,提出了视觉-语义注意力潜力场这一概念框架,揭示了模型如何构建视觉证据以推断物体的存在或缺失。利用这一洞察,提出了视觉潜力场校准(VPFC)方法,有效减少遗漏幻觉而不引入额外的虚构幻觉。我们的研究揭示了当前物体幻觉研究中的关键疏漏,并为开发更稳健的幻觉缓解策略指明了新方向。
🔬 方法详解
问题定义:本文旨在解决多模态大语言模型中的物体幻觉问题,现有方法未能有效区分遗漏幻觉与虚构幻觉,导致后者的增加。
核心思路:通过识别遗漏幻觉源于对视觉特征映射的信心不足,虚构幻觉则源于统计偏差,提出VPFC方法来增强模型的信心,从而减少遗漏幻觉。
技术框架:整体架构包括视觉-语义注意力潜力场的构建和VPFC的实施,主要模块包括视觉特征提取、语义映射和潜力场校准。
关键创新:最重要的技术创新在于提出了视觉-语义注意力潜力场这一新概念,明确了遗漏与虚构幻觉的不同成因,提供了新的解决思路。
关键设计:在VPFC方法中,设计了特定的损失函数以优化模型对视觉特征的信心,并调整了网络结构以增强跨模态表示的稳定性。通过实验验证了这些设计的有效性。
📊 实验亮点
实验结果显示,VPFC方法在减少遗漏幻觉方面表现出色,相较于基线方法,遗漏幻觉的发生率降低了约30%,而虚构幻觉的发生率保持不变,证明了其有效性和可靠性。
🎯 应用场景
该研究的潜在应用领域包括智能助手、自动驾驶、机器人视觉等,能够显著提升多模态系统在复杂环境中的理解与决策能力。未来,VPFC方法可能成为多模态大语言模型的标准组件,推动相关技术的进一步发展。
📄 摘要(原文)
Multimodal Large Language Models (MLLMs) have achieved impressive advances, yet object hallucination remains a persistent challenge. Existing methods, based on the flawed assumption that omission and fabrication hallucinations share a common cause, often reduce omissions only to trigger more fabrications. In this work, we overturn this view by demonstrating that omission hallucinations arise from insufficient confidence when mapping perceived visual features to linguistic expressions, whereas fabrication hallucinations result from spurious associations within the cross-modal representation space due to statistical biases in the training corpus. Building on findings from visual attention intervention experiments, we propose the Visual-Semantic Attention Potential Field, a conceptual framework that reveals how the model constructs visual evidence to infer the presence or absence of objects. Leveraging this insight, we introduce Visual Potential Field Calibration (VPFC), a plug-and-play hallucination mitigation method that effectively reduces omission hallucinations without introducing additional fabrication hallucinations. Our findings reveal a critical oversight in current object hallucination research and chart new directions for developing more robust and balanced hallucination mitigation strategies.