Analyzing Reasoning Consistency in Large Multimodal Models under Cross-Modal Conflicts

作者: Zhihao Zhu, Jiafeng Liang, Shixin Jiang, Jinlan Fu, Ming Liu, Guanglu Sun, See-Kiong Ng, Bing Qin

分类: cs.CV, cs.AI, cs.CL

发布日期: 2026-01-07

备注: 10 pages, 5 figures

💡 一句话要点

提出主动视觉上下文精炼方法，提升大模型在跨模态冲突下的推理一致性

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态推理 文本惯性 视觉重定位 上下文精炼 视频理解

📋 核心要点

现有大模型在多模态推理中存在“文本惯性”问题，即易受文本幻觉误导，忽略视觉证据。
论文提出主动视觉上下文精炼方法，通过视觉重定位和上下文精炼抑制幻觉传播。
实验表明，该方法能显著提升模型在跨模态冲突下的推理一致性和鲁棒性。

📝 摘要（中文）

大型多模态模型(LMMs)在视频推理方面通过思维链(CoT)展现了令人印象深刻的能力。然而，其推理链的鲁棒性仍然值得怀疑。本文发现了一种关键的失效模式，称为文本惯性，即一旦思维过程中出现文本幻觉，模型倾向于盲目地坚持错误的文本，而忽略冲突的视觉证据。为了系统地研究这个问题，我们提出了逻辑图扰动协议，该协议将结构性扰动注入到各种LMM的推理链中，包括原生推理架构和提示驱动范式，以评估其自我反思能力。结果表明，模型在不到10%的情况下成功地自我纠正，并且主要屈服于盲目的文本错误传播。为了缓解这个问题，我们引入了主动视觉上下文精炼，这是一种无需训练的推理范式，它协调了一种主动视觉重新定位机制，以强制执行细粒度的验证，并结合自适应上下文精炼策略来总结和消除推理历史中的噪声。实验表明，我们的方法显著抑制了幻觉传播并增强了推理的鲁棒性。

🔬 方法详解

问题定义：论文旨在解决大型多模态模型在进行视频推理时，由于“文本惯性”而导致的推理一致性问题。现有方法在推理过程中容易受到文本幻觉的影响，即使存在冲突的视觉证据，模型也倾向于盲目地遵循错误的文本信息，导致推理结果错误。这种现象严重影响了多模态模型的可靠性和鲁棒性。

核心思路：论文的核心思路是通过主动地利用视觉信息来纠正推理过程中的文本幻觉。具体来说，模型在推理的每一步都会主动地重新审视视觉内容，以验证当前推理步骤的正确性。同时，模型会维护一个精炼的上下文信息，用于过滤掉推理历史中的噪声和错误信息，从而避免错误信息的累积和传播。

技术框架：论文提出的主动视觉上下文精炼方法主要包含两个关键模块：主动视觉重定位（Active Visual Re-grounding）和自适应上下文精炼（Adaptive Context Refinement）。主动视觉重定位模块负责在推理的每一步，根据当前推理步骤的内容，主动地从视觉信息中提取相关证据，并验证当前推理步骤的正确性。自适应上下文精炼模块负责维护一个精炼的上下文信息，用于过滤掉推理历史中的噪声和错误信息。这两个模块协同工作，共同抑制幻觉传播，增强推理的鲁棒性。

关键创新：论文最重要的技术创新点在于提出了一种无需训练的推理范式，该范式通过主动地利用视觉信息来纠正推理过程中的文本幻觉。与现有方法相比，该方法不需要额外的训练数据，并且可以灵活地应用于各种不同的多模态模型。此外，论文还提出了逻辑图扰动协议，用于系统地评估多模态模型的自我反思能力。

关键设计：主动视觉重定位模块的具体实现方式未知，论文中没有详细描述。自适应上下文精炼模块的具体实现方式也未知，论文中没有详细描述。论文中没有提及任何关键的参数设置、损失函数或网络结构等技术细节。

📊 实验亮点

实验结果表明，论文提出的主动视觉上下文精炼方法能够显著抑制幻觉传播，并增强推理的鲁棒性。具体来说，该方法在逻辑图扰动协议的测试中，将模型的自我纠正率从低于10%提升到了一个更高的水平（具体数值未知）。此外，该方法还能够有效地过滤掉推理历史中的噪声和错误信息，从而避免错误信息的累积和传播。

🎯 应用场景

该研究成果可应用于视频理解、智能监控、人机交互等领域。通过提高多模态模型在复杂场景下的推理一致性，可以提升相关应用的可靠性和智能化水平，例如在自动驾驶中，可以帮助模型更准确地理解周围环境，避免因幻觉导致的决策失误。

📄 摘要（原文）

Large Multimodal Models (LMMs) have demonstrated impressive capabilities in video reasoning via Chain-of-Thought (CoT). However, the robustness of their reasoning chains remains questionable. In this paper, we identify a critical failure mode termed textual inertia, where once a textual hallucination occurs in the thinking process, models tend to blindly adhere to the erroneous text while neglecting conflicting visual evidence. To systematically investigate this, we propose the LogicGraph Perturbation Protocol that structurally injects perturbations into the reasoning chains of diverse LMMs spanning both native reasoning architectures and prompt-driven paradigms to evaluate their self-reflection capabilities. The results reveal that models successfully self-correct in less than 10% of cases and predominantly succumb to blind textual error propagation. To mitigate this, we introduce Active Visual-Context Refinement, a training-free inference paradigm which orchestrates an active visual re-grounding mechanism to enforce fine-grained verification coupled with an adaptive context refinement strategy to summarize and denoise the reasoning history. Experiments demonstrate that our approach significantly stifles hallucination propagation and enhances reasoning robustness.

Analyzing Reasoning Consistency in Large Multimodal Models under Cross-Modal Conflicts

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册