Exposing Hallucinations To Suppress Them: VLMs Representation Editing With Generative Anchors
作者: Youxu Shi, Suorong Yang, Dong Liu
分类: cs.CV
发布日期: 2025-09-26
💡 一句话要点
提出基于生成锚点的VLM表征编辑方法,抑制多模态大语言模型的幻觉问题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 幻觉抑制 表征编辑 自监督学习 文本到图像生成
📋 核心要点
- 多模态大语言模型易产生幻觉,现有方法需额外训练或人工先验,且常牺牲信息量。
- 利用文本到图像模型生成负锚点,结合原始图像正锚点,编辑解码器隐藏状态抑制幻觉。
- 实验表明,该方法有效减少对象、属性和关系层面的幻觉,且具有良好的泛化性和鲁棒性。
📝 摘要(中文)
多模态大语言模型(MLLM)在各种视觉-语言任务中取得了显著成功,但仍然容易产生幻觉,即生成流畅但与视觉证据不一致的内容。这种幻觉涵盖对象、属性和关系,即使在更大的模型中也依然存在。现有的缓解方法通常需要额外的微调、手工设计的先验知识,或者牺牲信息量和可扩展性。为了解决这个限制,我们提出了一种无需训练、自监督的幻觉缓解方法。我们的方法引入了一种新颖的幻觉放大机制:通过文本到图像模型将caption投影到视觉空间,以揭示隐含的幻觉信号,作为负锚点,而原始图像提供正锚点。利用这些双锚点,我们编辑解码器隐藏状态,将表征拉向忠实的语义,并将其推离幻觉方向。这种校正不需要人工先验或额外的训练成本,确保了有效性和效率。在多个基准测试上的大量实验表明,我们的方法显著减少了对象、属性和关系层面的幻觉,同时在很大程度上保留了召回率和caption丰富度。例如,在使用LLaVA-v1.5-7B在CHAIR上进行测试时,幻觉减少了5%以上。此外,在包括LLaVA-NEXT-7B、Cambrian-8B和InstructBLIP-7B在内的各种架构上的结果验证了强大的跨架构泛化能力。更重要的是,当应用于无幻觉的caption时,我们的方法几乎没有引入副作用,突显了其鲁棒性和实际的即插即用适用性。该实现将公开提供。
🔬 方法详解
问题定义:多模态大语言模型(MLLMs)在理解视觉信息并生成文本描述时,经常出现“幻觉”现象,即生成的文本内容与图像中的实际内容不符,包括错误的物体识别、属性描述和关系推断。现有缓解幻觉的方法通常需要额外的微调,依赖手工设计的先验知识,或者在抑制幻觉的同时牺牲生成文本的信息量和可扩展性。这些方法的痛点在于成本高昂、泛化能力有限,且难以在实际应用中灵活部署。
核心思路:该论文的核心思路是通过“暴露”幻觉来抑制幻觉。具体来说,利用文本到图像生成模型,将MLLM生成的caption反向投影到视觉空间,如果caption中存在幻觉,那么生成的图像会与原始图像存在差异,从而揭示幻觉信号。将原始图像视为正锚点,生成的图像视为负锚点,通过对比学习的方式,引导MLLM的表征向真实语义靠拢,远离幻觉方向。
技术框架:该方法主要包含以下几个阶段:1. MLLM生成图像的caption;2. 使用文本到图像生成模型,根据caption生成图像;3. 将原始图像和生成的图像分别作为正负锚点;4. 编辑MLLM解码器的隐藏状态,通过拉近与正锚点表征的距离,推远与负锚点表征的距离,从而修正MLLM的输出。整个过程无需额外的训练,是一种自监督的方法。
关键创新:该方法最重要的创新点在于提出了利用文本到图像生成模型来“放大”和“暴露”MLLM的幻觉。通过将caption反向投影到视觉空间,可以更清晰地识别出MLLM的错误,从而为后续的表征编辑提供更准确的指导。与现有方法相比,该方法无需人工标注数据或设计复杂的先验知识,具有更高的灵活性和可扩展性。
关键设计:该方法的关键设计在于如何有效地利用正负锚点来编辑MLLM的隐藏状态。具体来说,可以使用对比学习损失函数,鼓励MLLM的表征更接近正锚点,更远离负锚点。此外,还可以探索不同的表征编辑策略,例如,只编辑特定层的隐藏状态,或者根据幻觉的类型采用不同的编辑强度。论文中没有详细说明具体的损失函数和编辑策略,这些细节可能需要根据具体的MLLM架构和任务进行调整。
📊 实验亮点
实验结果表明,该方法在多个基准测试中显著降低了多模态大语言模型的幻觉,例如在使用LLaVA-v1.5-7B在CHAIR数据集上进行测试时,幻觉减少了5%以上。同时,该方法在很大程度上保留了召回率和caption的丰富度。更重要的是,该方法具有良好的跨架构泛化能力,可以应用于LLaVA-NEXT-7B、Cambrian-8B和InstructBLIP-7B等不同的模型。
🎯 应用场景
该研究成果可广泛应用于各种需要多模态信息融合的场景,例如智能客服、图像描述生成、视觉问答等。通过有效抑制多模态大语言模型的幻觉,可以提高生成内容的准确性和可靠性,提升用户体验。未来,该方法有望进一步推广到其他多模态任务,例如视频理解、机器人导航等,促进人工智能技术的更广泛应用。
📄 摘要(原文)
Multimodal large language models (MLLMs) have achieved remarkable success across diverse vision-language tasks, yet they remain highly susceptible to hallucinations, producing content that is fluent but inconsistent with visual evidence. Such hallucinations, spanning objects, attributes, and relations, persist even in larger models, while existing mitigation approaches often require additional finetuning, handcrafted priors, or trade-offs that compromise informativeness and scalability. To address this limitation, we propose a training-free, self-supervised method for hallucination mitigation. Our approach introduces a novel hallucination amplification mechanism: a caption is projected into the visual space via a text-to-image model to reveal implicit hallucination signals, serving as a negative anchor, while the original image provides a positive anchor. Leveraging these dual anchors, we edit decoder hidden states by pulling representations toward faithful semantics and pushing them away from hallucination directions. This correction requires no human priors or additional training costs, ensuring both effectiveness and efficiency. Extensive experiments across multiple benchmarks show that our method significantly reduces hallucinations at the object, attribute, and relation levels while largely preserving recall and caption richness, e.g., achieving a hallucination reduction by over 5% using LLaVA-v1.5-7B on CHAIR. Furthermore, results on diverse architectures, including LLaVA-NEXT-7B, Cambrian-8B, and InstructBLIP-7B, validate strong cross-architecture generalization. More importantly, when applied to hallucination-free captions, our method introduces almost no side effects, underscoring its robustness and practical plug-and-play applicability. The implementation will be publicly available.