Mitigating Visual Hallucinations via Semantic Curriculum Preference Optimization in MLLMs

作者: Yuanshuai Li, Yuping Yan, Junfeng Tang, Yunxuan Li, Zeqi Zheng, Yaochu Jin

分类: cs.CV, cs.AI

发布日期: 2025-09-29

💡 一句话要点

提出SCPO框架，通过语义课程偏好优化缓解多模态大语言模型中的视觉幻觉问题

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 视觉幻觉 语义课程学习 偏好优化 模型对齐 对称学习 LLaVA

📋 核心要点

MLLM存在视觉幻觉问题，现有DPO方法无法捕捉细粒度语义差异，易于捷径学习。
SCPO构建语义课程偏好对数据集，采用渐进式学习策略，并设计对称双向目标函数。
实验表明，SCPO显著降低了视觉幻觉率，最高达62.9%，并保持了模型通用能力。

📝 摘要（中文）

多模态大语言模型(MLLM)在各种任务上的性能得到了显著提高，但仍然存在视觉幻觉问题，即生成的响应与视觉证据相矛盾。直接偏好优化(DPO)被广泛用于对齐，但其在MLLM中的应用通常无法捕捉细粒度的语义差异，并鼓励捷径学习。为了解决这些挑战，我们提出了一种用于MLLM对齐的新框架——语义课程偏好优化(SCPO)。SCPO采用了一种渐进的、由易到难的课程，该课程建立在我们提出的语义课程偏好对数据集之上，该数据集提供了按难度排序的细粒度语义对比。该课程使用动态参考模型和一个新颖的对称、双向目标进行训练，以促进同时从文本和视觉偏好中学习。据我们所知，SCPO是第一个统一语义、对称性和课程用于MLLM对齐的框架，有效地缓解了视觉幻觉。在各种规模和版本的LLaVA模型上进行的大量实验验证了SCPO在多个幻觉基准测试中表现出优于基线模型的性能，幻觉率降低高达62.9%。此外，在通用基准测试中的评估表明，SCPO提高了事实性，同时保留了一般能力，其性能在通用视觉语言基准测试中保持稳定。

🔬 方法详解

问题定义：论文旨在解决多模态大语言模型（MLLM）中存在的视觉幻觉问题，即模型生成的文本描述与实际图像内容不符。现有的直接偏好优化（DPO）方法在应用于MLLM时，无法有效捕捉细粒度的语义差异，容易导致模型学习到不正确的捷径，从而加剧视觉幻觉现象。

核心思路：论文的核心思路是引入语义课程学习（Semantic Curriculum Learning）的概念，构建一个由易到难的语义课程，让模型逐步学习区分细微的语义差异，从而提高模型对视觉信息的理解和推理能力。同时，采用对称双向的目标函数，使得模型能够同时从文本和视觉偏好中学习，增强模型的鲁棒性和泛化能力。

技术框架：SCPO框架主要包含以下几个关键模块：1) 语义课程偏好对数据集构建：构建包含细粒度语义对比的数据集，并按照难度进行排序。2) 动态参考模型：在训练过程中，使用动态更新的参考模型来指导模型的学习方向。3) 对称双向目标函数：设计一个对称的、双向的目标函数，使得模型能够同时从文本和视觉偏好中学习。4) 课程学习策略：采用由易到难的课程学习策略，逐步提高模型的学习难度。

关键创新：SCPO框架的关键创新在于将语义课程学习、对称学习和偏好优化三者结合起来，用于MLLM的对齐。这是首次尝试将这三个概念统一到一个框架中，以解决视觉幻觉问题。与传统的DPO方法相比，SCPO能够更好地捕捉细粒度的语义差异，避免模型学习到不正确的捷径。

关键设计：在语义课程偏好对数据集的构建中，需要仔细设计语义对比的难度级别，确保课程的渐进性。在对称双向目标函数的设计中，需要平衡文本和视觉偏好的权重，避免模型过度依赖某一种模态的信息。动态参考模型的更新策略也需要仔细调整，以保证模型的学习稳定性和收敛速度。具体的损失函数形式和超参数设置需要在实验中进行调整和优化。

📊 实验亮点

实验结果表明，SCPO在多个幻觉基准测试中显著优于基线模型，视觉幻觉率降低高达62.9%。同时，SCPO在通用视觉语言基准测试中保持了稳定的性能，表明其在提高事实性的同时，没有牺牲模型的通用能力。这些结果验证了SCPO框架的有效性和优越性。

🎯 应用场景

该研究成果可应用于各种需要可靠视觉信息理解的多模态应用场景，例如：自动驾驶、智能安防、医疗影像诊断、智能客服等。通过降低视觉幻觉，可以提高这些应用的安全性和可靠性，并为用户提供更准确的信息。

📄 摘要（原文）

Multimodal Large Language Models (MLLMs) have significantly improved the performance of various tasks, but continue to suffer from visual hallucinations, a critical issue where generated responses contradict visual evidence. While Direct Preference Optimization(DPO) is widely used for alignment, its application to MLLMs often fails to capture fine-grained semantic differences and encourages shortcut learning. To address these challenges, we propose Semantic Curriculum Preference Optimization (SCPO), a novel framework for MLLM alignment. SCPO employs a progressive, easy-to-hard curriculum built upon our Semantic Curriculum Preference Pairs dataset, which provides fine-grained semantic contrasts sorted by difficulty. This curriculum is trained with a dynamic reference model and a novel symmetric, bidirectional objective to facilitate simultaneous learning from both textual and visual preferences. To our knowledge, SCPO is the first framework to unify semantics, symmetry, and curriculum for MLLMs alignment, effectively mitigating visual hallucinations. Extensive experiments on LLaVA models across various scales and versions validate that SCPO demonstrates superior performance compared to baseline models on multiple hallucination benchmarks, reducing the hallucination rate by up to 62.9%. Moreover, evaluations on generalized benchmarks show that SCPO improves factuality while preserving general capabilities, with its performance remaining stable across general vision-language benchmarks.

Mitigating Visual Hallucinations via Semantic Curriculum Preference Optimization in MLLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册