MoD-DPO: Towards Mitigating Cross-modal Hallucinations in Omni LLMs using Modality Decoupled Preference Optimization

作者: Ashutosh Chaubey, Jiacheng Pang, Mohammad Soleymani

分类: cs.CV, cs.CL, cs.LG

发布日期: 2026-03-03

备注: CVPR 2026. Project Page: https://mod-dpo.github.io/

💡 一句话要点

提出MoD-DPO，通过解耦模态偏好优化缓解全模态LLM中的跨模态幻觉问题

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 跨模态幻觉 偏好优化 模态解耦 视听理解

📋 核心要点

全模态LLM易受跨模态幻觉影响，现有方法难以有效解决由虚假相关性和语言先验导致的问题。
MoD-DPO通过模态解耦，增强模型对相关模态的敏感性，抑制对不相关模态的依赖，并减少文本先验的影响。
实验表明，MoD-DPO在多个视听幻觉基准测试中，显著提升了感知准确性和抗幻觉能力，优于现有方法。

📝 摘要（中文）

全模态大型语言模型（omni LLM）在视听理解任务中表现出色，但易受跨模态幻觉影响，这源于虚假相关性和主导的语言先验。本文提出模态解耦直接偏好优化（MoD-DPO），旨在提升omni LLM中的模态 grounding。MoD-DPO引入模态感知的正则化项，显式地强制模型对不相关模态的扰动保持不变性，并对相关模态的扰动保持敏感性，从而减少不必要的跨模态交互。为了进一步缓解对文本先验的过度依赖，我们加入语言先验去偏置惩罚项，抑制易产生幻觉的纯文本响应。大量视听幻觉基准测试表明，MoD-DPO在相似训练预算下，持续提升感知准确性和抗幻觉能力，优于之前的偏好优化基线。研究结果强调了模态忠实对齐的重要性，并展示了通往更可靠和鲁棒的多模态基础模型的可扩展路径。

🔬 方法详解

问题定义：全模态LLM在处理视听数据时，容易产生跨模态幻觉，即模型生成的内容与实际视听信息不符。现有方法难以有效区分相关和不相关模态的信息，导致模型过度依赖语言先验或虚假相关性，从而产生幻觉。

核心思路：MoD-DPO的核心思路是通过模态解耦，使模型更加关注相关模态的信息，并抑制对不相关模态的依赖。具体来说，通过引入模态感知的正则化项，强制模型对不相关模态的扰动保持不变性，并对相关模态的扰动保持敏感性。同时，通过语言先验去偏置惩罚项，减少模型对文本先验的过度依赖。

技术框架：MoD-DPO基于直接偏好优化（DPO）框架。首先，收集包含正确答案和错误答案的视听数据对。然后，利用DPO的目标函数，训练模型学习对正确答案的偏好。在此基础上，MoD-DPO引入了两个关键的正则化项：模态不变性正则化项和模态敏感性正则化项。此外，还引入了语言先验去偏置惩罚项。

关键创新：MoD-DPO的关键创新在于模态解耦的思想，以及模态感知正则化项和语言先验去偏置惩罚项的设计。与现有方法相比，MoD-DPO能够更有效地缓解跨模态幻觉问题，提高模型的可靠性和鲁棒性。

关键设计：模态不变性正则化项通过对不相关模态进行扰动，并惩罚模型输出的变化来实现。模态敏感性正则化项通过对相关模态进行扰动，并鼓励模型输出的变化来实现。语言先验去偏置惩罚项通过惩罚模型生成纯文本响应的概率来实现。这些正则化项的具体形式和权重需要根据具体任务进行调整。

🖼️ 关键图片

📊 实验亮点

实验结果表明，MoD-DPO在多个视听幻觉基准测试中，显著提升了感知准确性和抗幻觉能力。例如，在XXX数据集上，MoD-DPO的准确率提升了X%，幻觉率降低了Y%。MoD-DPO在相似训练预算下，优于之前的偏好优化基线。

🎯 应用场景

MoD-DPO可应用于各种需要可靠多模态理解的场景，如视频监控、自动驾驶、医疗诊断等。通过减少跨模态幻觉，可以提高这些应用的安全性和可靠性，例如在自动驾驶中，避免模型因幻觉而错误识别交通信号。

📄 摘要（原文）

Omni-modal large language models (omni LLMs) have recently achieved strong performance across audiovisual understanding tasks, yet they remain highly susceptible to cross-modal hallucinations arising from spurious correlations and dominant language priors. In this work, we propose Modality-Decoupled Direct Preference Optimization (MoD-DPO), a simple and effective framework for improving modality grounding in omni LLMs. MoD-DPO introduces modality-aware regularization terms that explicitly enforce invariance to corruptions in irrelevant modalities and sensitivity to perturbations in relevant modalities, thereby reducing unintended cross-modal interactions. To further mitigate over-reliance on textual priors, we incorporate a language-prior debiasing penalty that discourages hallucination-prone text-only responses. Extensive experiments across multiple audiovisual hallucination benchmarks demonstrate that MoD-DPO consistently improves perception accuracy and hallucination resistance, outperforming previous preference optimization baselines under similar training budgets. Our findings underscore the importance of modality-faithful alignment and demonstrate a scalable path toward more reliable and resilient multimodal foundation models.

MoD-DPO: Towards Mitigating Cross-modal Hallucinations in Omni LLMs using Modality Decoupled Preference Optimization

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理