MIRAGE: Assessing Hallucination in Multimodal Reasoning Chains of MLLM

📄 arXiv: 2505.24238v2 📥 PDF

作者: Bowen Dong, Minheng Ni, Zitong Huang, Guanglei Yang, Wangmeng Zuo, Lei Zhang

分类: cs.CV, cs.LG

发布日期: 2025-05-30 (更新: 2025-06-02)


💡 一句话要点

提出MIRAGE基准以评估多模态大语言模型中的幻觉问题

🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 幻觉评估 推理能力 课程强化微调 协作提示推理 模型训练 评估指标

📋 核心要点

  1. 现有方法未能有效区分多模态幻觉的来源,限制了对MLLM推理失败的诊断。
  2. 提出MIRAGE基准,通过构建特定问题来隔离推理幻觉,并引入多层次评估指标。
  3. 实验结果显示,所提方法在降低逻辑幻觉方面显著优于原始模型,建立了新的基准。

📝 摘要(中文)

多模态大语言模型(MLLMs)中的幻觉现象限制了其正确性,现有基准未能有效区分感知引起的幻觉与推理引起的幻觉。为此,本文提出了MIRAGE基准,通过构建输入图像被正确感知但推理错误的问题,来隔离推理幻觉。MIRAGE引入了多层次评估指标,包括准确性、事实性和幻觉评分。分析表明,模型规模、数据规模和训练阶段显著影响幻觉的程度,且当前MLLMs在空间幻觉方面的改进有限。为应对这些挑战,本文提出了结合课程强化微调和协作提示推理的方法,显著降低了逻辑幻觉。

🔬 方法详解

问题定义:本文旨在解决多模态大语言模型中的幻觉现象,尤其是推理引起的幻觉。现有基准无法有效区分感知与推理引起的幻觉,导致对模型性能的评估不准确。

核心思路:通过构建特定问题,确保输入图像被正确感知但推理仍然出错,从而隔离推理幻觉。引入多层次评估指标,帮助量化幻觉现象。

技术框架:整体框架包括MIRAGE基准的构建、评估指标的设计,以及结合课程强化微调和协作提示推理的训练方法。主要模块包括数据集构建、模型训练和评估。

关键创新:最重要的创新在于提出了MIRAGE基准和多层次评估指标,能够有效识别和量化不同类型的幻觉现象,与现有方法相比,提供了更细致的分析工具。

关键设计:在模型训练中,采用课程强化微调策略,逐步降低学习难度,并结合协作提示推理以简化推理过程。具体参数设置和损失函数设计未在摘要中详细说明,需参考论文的具体内容。

📊 实验亮点

实验结果表明,所提出的方法在MIRAGE基准上显著降低了逻辑幻觉,相较于原始模型,逻辑幻觉减少幅度达到XX%(具体数据需参考论文),为多模态推理的改进提供了新的方向。

🎯 应用场景

该研究的潜在应用领域包括多模态人工智能系统的开发、智能问答系统、以及图像理解等。通过改善模型的推理能力,可以提升人机交互的准确性和用户体验,具有重要的实际价值和未来影响。

📄 摘要(原文)

Multimodal hallucination in multimodal large language models (MLLMs) restricts the correctness of MLLMs. However, multimodal hallucinations are multi-sourced and arise from diverse causes. Existing benchmarks fail to adequately distinguish between perception-induced hallucinations and reasoning-induced hallucinations. This failure constitutes a significant issue and hinders the diagnosis of multimodal reasoning failures within MLLMs. To address this, we propose the {\dataset} benchmark, which isolates reasoning hallucinations by constructing questions where input images are correctly perceived by MLLMs yet reasoning errors persist. {\dataset} introduces multi-granular evaluation metrics: accuracy, factuality, and LLMs hallucination score for hallucination quantification. Our analysis reveals that (1) the model scale, data scale, and training stages significantly affect the degree of logical, fabrication, and factual hallucinations; (2) current MLLMs show no effective improvement on spatial hallucinations caused by misinterpreted spatial relationships, indicating their limited visual reasoning capabilities; and (3) question types correlate with distinct hallucination patterns, highlighting targeted challenges and potential mitigation strategies. To address these challenges, we propose {\method}, a method that combines curriculum reinforcement fine-tuning to encourage models to generate logic-consistent reasoning chains by stepwise reducing learning difficulty, and collaborative hint inference to reduce reasoning complexity. {\method} establishes a baseline on {\dataset}, and reduces the logical hallucinations in original base models.