Mitigating Hallucinations in Large Vision-Language Models via Entity-Centric Multimodal Preference Optimization

作者: Jiulong Wu, Zhengliang Shi, Shuaiqiang Wang, Jizhou Huang, Dawei Yin, Lingyong Yan, Min Cao, Min Zhang

分类: cs.CV, cs.AI, cs.CL

发布日期: 2025-06-04 (更新: 2025-09-22)

备注: This paper is accepted by EMNLP2025

💡 一句话要点

提出实体中心多模态偏好优化以解决大视觉语言模型的幻觉问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 视觉语言模型 偏好对齐 幻觉问题 实体中心优化

📋 核心要点

现有方法在处理大型视觉语言模型的幻觉问题时，往往忽视了图像与文本之间的模态对齐，导致模型产生不可靠的输出。
本文提出的实体中心多模态偏好优化（EMPO）方法，通过增强模态对齐来改善模型的输出质量，减少幻觉现象。
实验结果显示，EMPO在多个基准测试中显著降低了幻觉率，尤其在Object-HalBench和MM-HalBench上分别减少了85.9%和49.8%。

📝 摘要（中文）

大型视觉语言模型（LVLMs）在多个任务中展现了令人印象深刻的能力。然而，它们的可信度常常受到幻觉的挑战，这主要源于模态不对齐和其基础大型语言模型（LLMs）固有的幻觉。现有的偏好对齐方法侧重于将模型响应与人类偏好对齐，但忽视了图像-文本模态的对齐，导致对LLMs的过度依赖和幻觉现象。本文提出了实体中心多模态偏好优化（EMPO），在模态对齐方面优于现有的人类偏好对齐方法。此外，为了克服高质量多模态偏好数据的稀缺性，我们利用开源指令数据集自动构建了涵盖图像、指令和响应三个方面的高质量偏好数据。在两个人工偏好数据集和五个多模态幻觉基准上的实验表明，EMPO的有效性，例如在Object-HalBench上减少幻觉率85.9%，在MM-HalBench上减少49.8%。

🔬 方法详解

问题定义：本文旨在解决大型视觉语言模型（LVLMs）中的幻觉问题，现有方法主要关注人类偏好对齐，忽视了图像与文本模态的对齐，导致模型输出的不可靠性。

核心思路：提出实体中心多模态偏好优化（EMPO），通过增强模态对齐，减少对大型语言模型（LLMs）的过度依赖，从而降低幻觉现象的发生。

技术框架：EMPO的整体架构包括三个主要模块：图像、指令和响应的高质量偏好数据构建，模态对齐优化，以及最终的模型训练和评估。

关键创新：EMPO的核心创新在于通过自动构建高质量的多模态偏好数据，增强了模态对齐能力，与现有方法相比，显著提升了模型的输出可靠性。

关键设计：在模型训练中，采用了特定的损失函数来平衡模态对齐与人类偏好对齐，同时在网络结构上进行了优化，以提高模型对多模态输入的处理能力。

📊 实验亮点

实验结果显示，EMPO在Object-HalBench上减少了85.9%的幻觉率，在MM-HalBench上减少了49.8%。这些结果显著优于现有的偏好对齐方法，证明了EMPO在多模态幻觉问题上的有效性。

🎯 应用场景

该研究的潜在应用领域包括智能助手、自动图像描述生成、跨模态检索等。通过提高大型视觉语言模型的可信度，EMPO能够在实际应用中提供更准确的结果，增强用户体验，推动多模态人工智能的发展。

📄 摘要（原文）

Large Visual Language Models (LVLMs) have demonstrated impressive capabilities across multiple tasks. However, their trustworthiness is often challenged by hallucinations, which can be attributed to the modality misalignment and the inherent hallucinations of their underlying Large Language Models (LLMs) backbone. Existing preference alignment methods focus on aligning model responses with human preferences while neglecting image-text modality alignment, resulting in over-reliance on LLMs and hallucinations. In this paper, we propose Entity-centric Multimodal Preference Optimization (EMPO), which achieves enhanced modality alignment compared to existing human preference alignment methods. Besides, to overcome the scarcity of high-quality multimodal preference data, we utilize open-source instruction datasets to automatically construct high-quality preference data across three aspects: image, instruction, and response. Experiments on two human preference datasets and five multimodal hallucination benchmarks demonstrate the effectiveness of EMPO, e.g., reducing hallucination rates by 85.9\% on Object-HalBench and 49.8\% on MM-HalBench.

Mitigating Hallucinations in Large Vision-Language Models via Entity-Centric Multimodal Preference Optimization

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册