Reducing Hallucinations in LLMs via Factuality-Aware Preference Learning

📄 arXiv: 2601.03027v1 📥 PDF

作者: Sindhuja Chaduvula, Ahmed Y. Radwan, Azib Farooq, Yani Ioannou, Shaina Raza

分类: cs.CL

发布日期: 2026-01-06


💡 一句话要点

提出F-DPO,通过事实感知偏好学习减少LLM中的幻觉问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 幻觉抑制 偏好学习 事实性 直接偏好优化 指令遵循 知识对齐

📋 核心要点

  1. 现有偏好对齐方法可能因奖励流畅性和置信度而加剧LLM的幻觉问题,忽略了事实正确性。
  2. F-DPO通过标签翻转和事实感知裕度,确保选择的响应更符合事实,从而减少幻觉。
  3. 实验表明,F-DPO在多个开源LLM上显著降低了幻觉率,并提高了事实性得分,且无需额外资源。

📝 摘要(中文)

偏好对齐方法,如RLHF和直接偏好优化(DPO),虽然能提升LLM的指令遵循能力,但也可能因偏好判断奖励流畅性和置信度而强化幻觉。本文提出F-DPO(事实感知直接偏好优化),是DPO的一个简单扩展,仅使用二元事实性标签。F-DPO (i) 应用标签翻转变换,纠正错误排序的偏好对,确保选择的响应的事实性不低于拒绝的响应;(ii) 增加一个事实感知裕度,强调正确性差异明显的偏好对,并在两个响应的事实性相同时退化为标准DPO。通过用二元事实性指标和合成的幻觉变体增强DPO对,构建事实感知偏好数据。在七个开源LLM(1B-14B)上,F-DPO始终能提高事实性并降低幻觉率,优于基线模型和标准DPO。在Qwen3-8B上,F-DPO将幻觉率降低了五倍(从0.424降至0.084),同时将事实性得分提高了50%(从5.26升至7.90)。F-DPO还推广到分布外基准:在TruthfulQA上,Qwen2.5-14B实现了+17%的MC1准确率(0.500至0.585)和+49%的MC2准确率(0.357至0.531)。F-DPO不需要辅助奖励模型、token级别注释或多阶段训练。

🔬 方法详解

问题定义:现有基于偏好学习的LLM对齐方法,如RLHF和DPO,在追求流畅性和置信度的同时,容易忽略事实正确性,导致模型生成与事实不符的内容,即产生幻觉。这些方法在训练过程中,可能会错误地将流畅但不真实的回答排在更真实但表达不够流畅的回答前面,从而强化了幻觉。

核心思路:F-DPO的核心思路是在DPO的基础上,引入事实性感知。具体来说,它利用二元事实性标签来调整偏好对,确保选择的响应在事实性上不低于拒绝的响应。此外,F-DPO还引入了事实感知裕度,对事实性差异明显的偏好对进行更强的区分,从而更有效地学习到事实正确的偏好。

技术框架:F-DPO的整体框架与DPO类似,但关键在于数据准备和损失函数的设计。首先,需要构建包含事实性标签的偏好数据集。然后,利用标签翻转变换来纠正错误排序的偏好对。最后,使用包含事实感知裕度的损失函数进行训练。整个过程不需要额外的奖励模型或多阶段训练。

关键创新:F-DPO的关键创新在于其事实感知的偏好学习机制。与标准DPO相比,F-DPO能够更有效地利用事实性信息来指导模型的学习,从而减少幻觉。标签翻转变换和事实感知裕度的引入,使得模型能够更好地区分事实正确和错误的响应,并学习到更符合事实的偏好。

关键设计:F-DPO的关键设计包括:1) 使用二元事实性标签,简化了标注过程;2) 标签翻转变换,确保选择的响应的事实性不低于拒绝的响应;3) 事实感知裕度,对事实性差异明显的偏好对进行更强的区分。损失函数的设计也至关重要,它需要能够有效地利用事实性信息来指导模型的学习。具体的损失函数形式在论文中有详细描述,未知是否包含超参数设置。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

F-DPO在多个开源LLM(1B-14B)上进行了评估,结果表明,F-DPO能够显著提高事实性并降低幻觉率。例如,在Qwen3-8B上,F-DPO将幻觉率降低了五倍(从0.424降至0.084),同时将事实性得分提高了50%(从5.26升至7.90)。此外,F-DPO还在TruthfulQA上取得了显著的性能提升,Qwen2.5-14B实现了+17%的MC1准确率和+49%的MC2准确率。

🎯 应用场景

F-DPO可应用于各种需要事实性保证的LLM应用场景,如问答系统、知识库构建、新闻生成等。通过减少LLM的幻觉,可以提高这些应用的可靠性和可信度。该方法还有助于提升LLM在医疗、法律等领域的应用潜力,在这些领域中,事实准确性至关重要。

📄 摘要(原文)

Preference alignment methods such as RLHF and Direct Preference Optimization (DPO) improve instruction following, but they can also reinforce hallucinations when preference judgments reward fluency and confidence over factual correctness. We introduce F-DPO (Factuality-aware Direct Preference Optimization), a simple extension of DPO that uses only binary factuality labels. F-DPO (i) applies a label-flipping transformation that corrects misordered preference pairs so the chosen response is never less factual than the rejected one, and (ii) adds a factuality-aware margin that emphasizes pairs with clear correctness differences, while reducing to standard DPO when both responses share the same factuality. We construct factuality-aware preference data by augmenting DPO pairs with binary factuality indicators and synthetic hallucinated variants. Across seven open-weight LLMs (1B-14B), F-DPO consistently improves factuality and reduces hallucination rates relative to both base models and standard DPO. On Qwen3-8B, F-DPO reduces hallucination rates by five times (from 0.424 to 0.084) while improving factuality scores by 50 percent (from 5.26 to 7.90). F-DPO also generalizes to out-of-distribution benchmarks: on TruthfulQA, Qwen2.5-14B achieves plus 17 percent MC1 accuracy (0.500 to 0.585) and plus 49 percent MC2 accuracy (0.357 to 0.531). F-DPO requires no auxiliary reward model, token-level annotations, or multi-stage training.