MoD-DPO: Towards Mitigating Cross-modal Hallucinations in Omni LLMs using Modality Decoupled Preference Optimization

📄 arXiv: 2603.03192v1 📥 PDF

作者: Ashutosh Chaubey, Jiacheng Pang, Mohammad Soleymani

分类: cs.CV, cs.CL, cs.LG

发布日期: 2026-03-03

备注: CVPR 2026. Project Page: https://mod-dpo.github.io/


💡 一句话要点

提出MoD-DPO,通过解耦模态偏好优化缓解全模态LLM中的跨模态幻觉问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 跨模态幻觉 偏好优化 模态解耦 视听理解

📋 核心要点

  1. 全模态LLM易受跨模态幻觉影响,现有方法难以有效解决由虚假相关性和语言先验导致的问题。
  2. MoD-DPO通过模态解耦,增强模型对相关模态的敏感性,抑制对不相关模态的依赖,并减少文本先验的影响。
  3. 实验表明,MoD-DPO在多个视听幻觉基准测试中,显著提升了感知准确性和抗幻觉能力,优于现有方法。

📝 摘要(中文)

全模态大型语言模型(omni LLM)在视听理解任务中表现出色,但易受跨模态幻觉影响,这源于虚假相关性和主导的语言先验。本文提出模态解耦直接偏好优化(MoD-DPO),旨在提升omni LLM中的模态 grounding。MoD-DPO引入模态感知的正则化项,显式地强制模型对不相关模态的扰动保持不变性,并对相关模态的扰动保持敏感性,从而减少不必要的跨模态交互。为了进一步缓解对文本先验的过度依赖,我们加入语言先验去偏置惩罚项,抑制易产生幻觉的纯文本响应。大量视听幻觉基准测试表明,MoD-DPO在相似训练预算下,持续提升感知准确性和抗幻觉能力,优于之前的偏好优化基线。研究结果强调了模态忠实对齐的重要性,并展示了通往更可靠和鲁棒的多模态基础模型的可扩展路径。

🔬 方法详解

问题定义:全模态LLM在处理视听数据时,容易产生跨模态幻觉,即模型生成的内容与实际视听信息不符。现有方法难以有效区分相关和不相关模态的信息,导致模型过度依赖语言先验或虚假相关性,从而产生幻觉。

核心思路:MoD-DPO的核心思路是通过模态解耦,使模型更加关注相关模态的信息,并抑制对不相关模态的依赖。具体来说,通过引入模态感知的正则化项,强制模型对不相关模态的扰动保持不变性,并对相关模态的扰动保持敏感性。同时,通过语言先验去偏置惩罚项,减少模型对文本先验的过度依赖。

技术框架:MoD-DPO基于直接偏好优化(DPO)框架。首先,收集包含正确答案和错误答案的视听数据对。然后,利用DPO的目标函数,训练模型学习对正确答案的偏好。在此基础上,MoD-DPO引入了两个关键的正则化项:模态不变性正则化项和模态敏感性正则化项。此外,还引入了语言先验去偏置惩罚项。

关键创新:MoD-DPO的关键创新在于模态解耦的思想,以及模态感知正则化项和语言先验去偏置惩罚项的设计。与现有方法相比,MoD-DPO能够更有效地缓解跨模态幻觉问题,提高模型的可靠性和鲁棒性。

关键设计:模态不变性正则化项通过对不相关模态进行扰动,并惩罚模型输出的变化来实现。模态敏感性正则化项通过对相关模态进行扰动,并鼓励模型输出的变化来实现。语言先验去偏置惩罚项通过惩罚模型生成纯文本响应的概率来实现。这些正则化项的具体形式和权重需要根据具体任务进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MoD-DPO在多个视听幻觉基准测试中,显著提升了感知准确性和抗幻觉能力。例如,在XXX数据集上,MoD-DPO的准确率提升了X%,幻觉率降低了Y%。MoD-DPO在相似训练预算下,优于之前的偏好优化基线。

🎯 应用场景

MoD-DPO可应用于各种需要可靠多模态理解的场景,如视频监控、自动驾驶、医疗诊断等。通过减少跨模态幻觉,可以提高这些应用的安全性和可靠性,例如在自动驾驶中,避免模型因幻觉而错误识别交通信号。

📄 摘要(原文)

Omni-modal large language models (omni LLMs) have recently achieved strong performance across audiovisual understanding tasks, yet they remain highly susceptible to cross-modal hallucinations arising from spurious correlations and dominant language priors. In this work, we propose Modality-Decoupled Direct Preference Optimization (MoD-DPO), a simple and effective framework for improving modality grounding in omni LLMs. MoD-DPO introduces modality-aware regularization terms that explicitly enforce invariance to corruptions in irrelevant modalities and sensitivity to perturbations in relevant modalities, thereby reducing unintended cross-modal interactions. To further mitigate over-reliance on textual priors, we incorporate a language-prior debiasing penalty that discourages hallucination-prone text-only responses. Extensive experiments across multiple audiovisual hallucination benchmarks demonstrate that MoD-DPO consistently improves perception accuracy and hallucination resistance, outperforming previous preference optimization baselines under similar training budgets. Our findings underscore the importance of modality-faithful alignment and demonstrate a scalable path toward more reliable and resilient multimodal foundation models.