Text-Guided Layer Fusion Mitigates Hallucination in Multimodal LLMs
作者: Chenchen Lin, Sanbao Su, Rachel Luo, Yuxiao Chen, Yan Wang, Marco Pavone, Fei Miao
分类: cs.CV, cs.AI
发布日期: 2026-01-06
💡 一句话要点
提出TGIF:文本引导层融合缓解多模态LLM中的幻觉问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 视觉幻觉 层间融合 文本引导 视觉基础
📋 核心要点
- 现有MLLM依赖单一视觉特征,忽略了视觉编码器层级结构中的丰富信息,导致幻觉问题。
- TGIF将编码器层视为专家,根据文本提示动态融合视觉特征,增强视觉基础。
- 实验表明,TGIF在多个基准测试中有效缓解幻觉,并在VQA等任务中取得提升。
📝 摘要(中文)
多模态大型语言模型(MLLM)通常依赖于冻结的视觉编码器中的单个后期层特征,导致编码器丰富的视觉线索层级结构未被充分利用。MLLM仍然存在视觉上无根据的幻觉问题,常常依赖于语言先验而不是图像证据。虽然许多先前的缓解策略在文本端进行操作,但它们保持视觉表示不变,并且不利用视觉层中编码的丰富特征层级结构。现有的多层融合方法部分地解决了这个限制,但仍然是静态的,对所有查询应用相同的层混合。本文提出TGIF(文本引导层间融合),一个轻量级模块,将编码器层视为深度方向的“专家”,并预测提示依赖的视觉特征融合。TGIF遵循直接外部融合的原则,不需要视觉编码器更新,并且增加的开销极小。集成到LLaVA-1.5-7B后,TGIF在幻觉、OCR和VQA基准测试中提供了一致的改进,同时保持或提高了在ScienceQA、GQA和MMBench上的性能。这些结果表明,查询条件下的、层级结构感知的融合是加强视觉基础和减少现代MLLM中幻觉的有效方法。
🔬 方法详解
问题定义:多模态大语言模型(MLLM)在理解图像内容时,容易产生与图像不符的“幻觉”,即生成视觉上无根据的内容。现有的方法主要集中在文本端进行优化,而忽略了视觉编码器中不同层级特征所蕴含的丰富信息。即使是多层融合方法,也通常是静态的,无法根据不同的文本查询动态调整。
核心思路:TGIF的核心思想是利用文本提示来引导视觉编码器不同层级特征的融合。它将视觉编码器的每一层视为一个“专家”,每个专家提取不同层级的视觉信息。然后,根据文本提示,动态地学习一个融合权重,将这些不同层级的特征进行加权融合,从而得到更准确、更符合文本描述的视觉表示。
技术框架:TGIF采用直接外部融合的策略,即在现有的MLLM框架中,插入一个轻量级的TGIF模块。该模块接收文本提示和视觉编码器的多层特征作为输入,输出融合后的视觉特征。整个框架不需要对视觉编码器进行任何修改或训练,只需要训练TGIF模块即可。TGIF模块的输出会替代原有的单层视觉特征,输入到后续的语言模型中。
关键创新:TGIF的关键创新在于其动态融合机制。与静态的多层融合方法不同,TGIF能够根据不同的文本提示,自适应地调整不同层级特征的权重。这种动态融合机制使得模型能够更好地利用视觉编码器中的层级信息,从而提高视觉理解的准确性,减少幻觉的产生。
关键设计:TGIF模块通常由一个轻量级的神经网络构成,例如MLP或Transformer。该网络接收文本提示的嵌入向量和视觉编码器的多层特征作为输入。网络的目标是预测一个融合权重向量,该向量的维度等于视觉编码器的层数。然后,将这些权重应用于对应的视觉特征,进行加权求和,得到最终的融合特征。损失函数通常采用交叉熵损失或均方误差损失,以鼓励网络学习到合适的融合权重。
🖼️ 关键图片
📊 实验亮点
TGIF集成到LLaVA-1.5-7B后,在多个基准测试中取得了显著的改进。在幻觉评估基准上,TGIF有效降低了模型产生幻觉的概率。同时,在OCR和VQA任务中,TGIF也取得了性能提升。更重要的是,TGIF在提升视觉理解能力的同时,保持甚至提高了模型在ScienceQA、GQA和MMBench等其他任务上的性能。
🎯 应用场景
TGIF技术可应用于各种需要精确视觉理解的多模态应用场景,例如:图像描述生成、视觉问答、机器人导航、医学图像诊断等。通过减少幻觉,提高视觉基础,可以提升这些应用的可信度和可靠性,并为未来的多模态人工智能发展奠定基础。
📄 摘要(原文)
Multimodal large language models (MLLMs) typically rely on a single late-layer feature from a frozen vision encoder, leaving the encoder's rich hierarchy of visual cues under-utilized. MLLMs still suffer from visually ungrounded hallucinations, often relying on language priors rather than image evidence. While many prior mitigation strategies operate on the text side, they leave the visual representation unchanged and do not exploit the rich hierarchy of features encoded across vision layers. Existing multi-layer fusion methods partially address this limitation but remain static, applying the same layer mixture regardless of the query. In this work, we introduce TGIF (Text-Guided Inter-layer Fusion), a lightweight module that treats encoder layers as depth-wise "experts" and predicts a prompt-dependent fusion of visual features. TGIF follows the principle of direct external fusion, requires no vision-encoder updates, and adds minimal overhead. Integrated into LLaVA-1.5-7B, TGIF provides consistent improvements across hallucination, OCR, and VQA benchmarks, while preserving or improving performance on ScienceQA, GQA, and MMBench. These results suggest that query-conditioned, hierarchy-aware fusion is an effective way to strengthen visual grounding and reduce hallucination in modern MLLMs.