HALP: Detecting Hallucinations in Vision-Language Models without Generating a Single Token
作者: Sai Akhil Kogilathota, Sripadha Vallabha E G, Luzhe Sun, Jiawei Zhou
分类: cs.CV
发布日期: 2026-03-05
期刊: The 19th Conference of the European Chapter of the Association for Computational Linguistics (EACL 2026)
💡 一句话要点
HALP:无需生成任何token即可检测视觉语言模型中的幻觉
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉语言模型 幻觉检测 内部表示 早期预警 轻量级探测器
📋 核心要点
- 现有视觉语言模型易产生幻觉,即生成与图像不符的内容,而现有检测方法在生成后进行,成本高且不及时。
- 该论文提出HALP方法,通过探测模型内部表示,在生成token前预测幻觉风险,实现早期干预。
- 实验表明,HALP在多个VLM上表现出色,AUROC最高达0.93,证明了幻觉风险可预判,且不同模型的关键层不同。
📝 摘要(中文)
幻觉是视觉语言模型(VLM)面临的一个持续挑战,它们经常描述不存在的物体或捏造事实。现有的检测方法通常在文本生成之后进行,使得干预既昂贵又不及时。本文研究了是否可以通过在单个前向传递中探测模型的内部表示来预测幻觉风险,而无需生成任何token。在各种视觉语言任务和八个现代VLM(包括Llama-3.2-Vision、Gemma-3、Phi-4-VL和Qwen2.5-VL)上,我们检查了三类内部表示:(i)没有多模态融合的纯视觉特征,(ii)文本解码器中的视觉token表示,以及(iii)在生成之前整合视觉和文本信息的查询token表示。在这些表示上训练的探测器在没有解码的情况下实现了强大的幻觉检测性能,在Gemma-3-12B、Phi-4-VL 5.6B和Molmo 7B上达到了高达0.93的AUROC。对于大多数模型来说,后期的查询token状态最具预测性,而视觉或中间层特征在少数架构中占主导地位(例如,使用纯视觉特征的Qwen2.5-VL-7B达到约0.79的AUROC)。这些结果表明:(1)幻觉风险可以在生成前被检测到,(2)最具信息量的层和模态因架构而异,以及(3)轻量级探测器有潜力实现早期放弃、选择性路由和自适应解码,从而提高安全性和效率。
🔬 方法详解
问题定义:视觉语言模型(VLM)在生成文本描述图像时,经常出现幻觉现象,即生成与图像内容不符或捏造的信息。现有的幻觉检测方法通常在文本生成完成后进行,这意味着需要先付出计算资源生成文本,再进行检测,导致效率低下,且无法在生成过程中进行干预,从而避免幻觉的产生。
核心思路:该论文的核心思路是,在VLM生成任何token之前,通过分析模型的内部表示来预测幻觉的风险。作者认为,模型在处理视觉和文本信息时,其内部状态已经包含了关于是否存在幻觉的信息。通过训练轻量级的探测器来识别这些内部状态中的模式,可以实现对幻觉的早期检测。这样可以避免不必要的计算开销,并为后续的干预措施提供依据。
技术框架:HALP方法主要包含以下几个阶段:1) 选择内部表示:选取VLM中不同类型的内部表示,包括纯视觉特征(没有多模态融合)、视觉token表示(在文本解码器中)和查询token表示(整合视觉和文本信息)。2) 训练探测器:使用标注有幻觉与否的数据集,训练轻量级的探测器(例如,线性分类器或小型神经网络)来预测幻觉风险。探测器的输入是选定的内部表示,输出是幻觉的概率。3) 评估性能:在不同的VLM和任务上评估探测器的性能,使用AUROC等指标来衡量检测效果。
关键创新:该论文最重要的创新点在于,它提出了一种在文本生成之前检测幻觉的方法。与传统的后验检测方法相比,HALP能够实现对幻觉的早期预警,从而为后续的干预措施(例如,提前终止生成、选择性路由或自适应解码)提供了可能。此外,该论文还发现,不同类型的内部表示在预测幻觉风险方面的作用不同,且不同模型的最具信息量的层和模态也存在差异。
关键设计:论文的关键设计包括:1) 内部表示的选择:作者选择了三种类型的内部表示,以覆盖VLM处理视觉和文本信息的不同阶段。2) 探测器的设计:作者使用了轻量级的探测器,以降低计算成本,并避免对VLM的原始性能产生影响。3) 评估指标的选择:作者使用了AUROC等指标来衡量探测器的性能,这些指标能够全面反映探测器在不同阈值下的检测效果。
🖼️ 关键图片
📊 实验亮点
实验结果表明,HALP在多个VLM上实现了强大的幻觉检测性能。例如,在Gemma-3-12B、Phi-4-VL 5.6B和Molmo 7B上,AUROC达到了高达0.93。此外,研究还发现,不同模型的最具信息量的层和模态存在差异,例如,Qwen2.5-VL-7B使用纯视觉特征即可达到约0.79的AUROC。
🎯 应用场景
HALP可应用于各种视觉语言任务,例如图像描述、视觉问答等。通过早期检测幻觉风险,可以实现更安全、更可靠的VLM应用。例如,在自动驾驶领域,可以避免因VLM产生幻觉而导致的错误决策。此外,HALP还可以用于提高VLM的效率,通过提前终止可能产生幻觉的生成过程,节省计算资源。
📄 摘要(原文)
Hallucinations remain a persistent challenge for vision-language models (VLMs), which often describe nonexistent objects or fabricate facts. Existing detection methods typically operate after text generation, making intervention both costly and untimely. We investigate whether hallucination risk can instead be predicted before any token is generated by probing a model's internal representations in a single forward pass. Across a diverse set of vision-language tasks and eight modern VLMs, including Llama-3.2-Vision, Gemma-3, Phi-4-VL, and Qwen2.5-VL, we examine three families of internal representations: (i) visual-only features without multimodal fusion, (ii) vision-token representations within the text decoder, and (iii) query-token representations that integrate visual and textual information before generation. Probes trained on these representations achieve strong hallucination-detection performance without decoding, reaching up to 0.93 AUROC on Gemma-3-12B, Phi-4-VL 5.6B, and Molmo 7B. Late query-token states are the most predictive for most models, while visual or mid-layer features dominate in a few architectures (e.g., ~0.79 AUROC for Qwen2.5-VL-7B using visual-only features). These results demonstrate that (1) hallucination risk is detectable pre-generation, (2) the most informative layer and modality vary across architectures, and (3) lightweight probes have the potential to enable early abstention, selective routing, and adaptive decoding to improve both safety and efficiency.