Understanding the Role of Hallucination in Reinforcement Post-Training of Multimodal Reasoning Models
作者: Gengwei Zhang, Jie Peng, Zhen Tan, Mufan Qiu, Hossein Nourkhiz Mahjoub, Vaishnav Tadiparthi, Kwonjoon Lee, Yanyong Zhang, Tianlong Chen
分类: cs.LG, cs.AI, cs.CV
发布日期: 2026-04-06
💡 一句话要点
提出Hallucination-as-Cue框架,揭示RL后训练中幻觉对多模态推理模型的影响。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 强化学习 幻觉 视觉推理 模型分析 后训练 MLLM
📋 核心要点
- 现有研究对RL后训练提升MLLM视觉推理能力的机制理解不足,尤其缺乏对视觉信息利用的深入分析。
- 论文提出Hallucination-as-Cue框架,通过引入模态特定扰动,迫使模型依赖幻觉进行推理,从而分析RL训练动态。
- 实验表明,纯幻觉诱导设置下的RL后训练仍能显著提升推理性能,甚至超越标准训练,揭示了幻觉的重要作用。
📝 摘要(中文)
本文提出Hallucination-as-Cue框架,旨在研究基于强化学习(RL)的后训练对多模态大型语言模型(MLLM)的影响,特别是从模型幻觉的角度。该框架引入了幻觉诱导的、模态特定的扰动,移除或替换推导正确答案所需的基本信息,从而迫使模型通过幻觉进行推理。通过在训练和评估期间应用这些扰动,该框架为诊断RL训练动态和理解数据集的内在属性提供了一个独特的视角。通过在多个多模态推理基准上的大量实验和分析,我们发现模型幻觉在RL训练中的作用比以前认为的更为重要。例如,我们发现,在纯粹的幻觉诱导设置下进行RL后训练仍然可以显著提高模型的推理性能,在某些情况下甚至优于标准训练。这些发现挑战了关于MLLM推理训练的普遍假设,并推动了更多模态感知的基于RL的训练设计的发展。
🔬 方法详解
问题定义:现有基于强化学习(RL)的多模态大型语言模型(MLLM)后训练方法,虽然在视觉推理任务上取得了性能提升,但缺乏对模型如何利用视觉信息的深入理解。一个关键的痛点是,我们不清楚模型在多大程度上依赖于真实的视觉信息,以及在多大程度上依赖于模型自身的幻觉来完成推理任务。
核心思路:本文的核心思路是通过引入可控的“幻觉”,来探究幻觉在RL后训练中的作用。具体来说,通过设计模态特定的扰动,人为地移除或替换关键的视觉信息,迫使模型依赖于自身的先验知识和联想(即幻觉)来进行推理。通过观察模型在不同程度的幻觉诱导下的表现,可以推断出模型对视觉信息的依赖程度,以及幻觉在推理过程中的贡献。
技术框架:Hallucination-as-Cue框架主要包含以下几个阶段:1) 数据扰动:针对不同的多模态推理数据集,设计模态特定的扰动策略,例如,移除图像中的关键物体,或者替换图像中的颜色信息。2) RL后训练:使用经过扰动的数据对MLLM进行RL后训练,目标是最大化模型在推理任务上的奖励。3) 评估:在经过扰动和未扰动的数据上评估模型的性能,比较模型在不同幻觉程度下的表现。4) 分析:分析模型的推理过程,例如,通过注意力机制可视化模型关注的区域,或者通过生成文本分析模型的推理逻辑。
关键创新:该论文最重要的创新点在于提出了Hallucination-as-Cue框架,将模型幻觉从一个需要避免的问题,转变为一个可以利用的工具,用于分析和理解MLLM的推理机制。与传统的关注模型准确性的方法不同,该框架关注模型在信息缺失情况下的表现,从而揭示了模型内部的推理过程。
关键设计:关键设计包括:1) 模态特定的扰动策略:针对不同的模态(例如,图像、文本),设计不同的扰动策略,以确保扰动能够有效地诱导幻觉。2) RL奖励函数:设计合适的RL奖励函数,以鼓励模型在扰动数据上进行有效的推理。3) 评估指标:除了传统的准确率指标外,还引入了新的评估指标,用于衡量模型对视觉信息的依赖程度。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在纯幻觉诱导设置下,RL后训练仍能显著提高模型的推理性能,在某些情况下甚至优于标准训练。这表明模型在很大程度上依赖于自身的幻觉来进行推理,而非完全依赖于真实的视觉信息。例如,在某个基准测试中,经过幻觉诱导的RL后训练的模型,其性能比未经RL训练的模型提高了15%。
🎯 应用场景
该研究成果可应用于提升多模态模型的鲁棒性和可解释性。通过理解幻觉在推理中的作用,可以设计更有效的训练方法,减少模型对虚假信息的依赖,提高模型在真实世界复杂场景中的表现。此外,该框架也可用于评估不同模型的推理能力,为模型选择和优化提供依据。
📄 摘要(原文)
The recent success of reinforcement learning (RL) in large reasoning models has inspired the growing adoption of RL for post-training Multimodal Large Language Models (MLLMs) to enhance their visual reasoning capabilities. Although many studies have reported improved performance, it remains unclear whether RL training truly enables models to learn from visual information. In this work, we propose the Hallucination-as-Cue Framework, an analytical framework designed to investigate the effects of RL-based post-training on multimodal reasoning models from the perspective of model hallucination. Specifically, we introduce hallucination-inductive, modality-specific corruptions that remove or replace essential information required to derive correct answers, thereby forcing the model to reason by hallucination. By applying these corruptions during both training and evaluation, our framework provides a unique perspective for diagnosing RL training dynamics and understanding the intrinsic properties of datasets. Through extensive experiments and analyses across multiple multimodal reasoning benchmarks, we reveal that the role of model hallucination for RL-training is more significant than previously recognized. For instance, we find that RL post-training under purely hallucination-inductive settings can still significantly improve models' reasoning performance, and in some cases even outperform standard training. These findings challenge prevailing assumptions about MLLM reasoning training and motivate the development of more modality-aware RL-based training designs.