Whose Facts Win? LLM Source Preferences under Knowledge Conflicts

📄 arXiv: 2601.03746v1 📥 PDF

作者: Jakob Schuster, Vagrant Gautam, Katja Markert

分类: cs.CL

发布日期: 2026-01-07

备注: Data and code: https://github.com/JaSchuste/llm-source-preference


💡 一句话要点

研究知识冲突下LLM对来源偏好,提出方法缓解重复偏见并保持偏好一致性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 知识冲突 来源偏好 检索增强生成 可信度 重复偏见 自然语言处理

📋 核心要点

  1. 现有研究缺乏对检索增强生成中LLM在知识冲突下对信息来源偏好的考察。
  2. 论文提出新框架,研究来源偏好如何影响LLM解决上下文知识冲突,并关注可信度问题。
  3. 实验表明LLM偏好机构认可信息,但重复低可信来源信息可逆转偏好,并提出方法缓解重复偏见。

📝 摘要(中文)

随着大型语言模型(LLMs)越来越频繁地应用于检索增强生成流程中,研究它们在知识冲突下的行为变得日益重要。目前,检索信息的来源在很大程度上未被考察。本文提出了一个新颖的框架,旨在研究来源偏好如何影响LLM在英语语境中解决上下文知识冲突,其动机来源于跨学科的可信度研究。通过对13个开源LLM进行全面且严格控制的评估,我们发现LLM更倾向于机构认可的信息(例如,政府或报纸来源),而不是来自个人和社交媒体的信息。然而,仅仅通过重复来自不太可信来源的信息,就可以逆转这些来源偏好。为了减轻重复效应并保持一致的偏好,我们提出了一种新方法,该方法可将重复偏见降低高达99.8%,同时保持至少88.8%的原始偏好。我们发布了所有数据和代码,以鼓励未来在知识密集型NLP中对可信度和来源偏好进行研究。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)在检索增强生成(RAG)流程中,面对知识冲突时,如何根据信息来源做出判断的问题。现有方法忽略了信息来源对LLM决策的影响,导致LLM可能采纳不可靠的信息,尤其是在存在对抗性重复的情况下。这会降低RAG系统的可靠性和可信度。

核心思路:论文的核心思路是研究不同来源的信息对LLM决策的影响,并设计一种方法来减轻重复偏见,同时保持LLM对信息来源的固有偏好。通过控制实验,揭示LLM对不同来源(如政府、新闻、社交媒体)的偏好程度,并探究重复信息如何改变这些偏好。

技术框架:论文的技术框架主要包括三个部分:1) 构建包含知识冲突的数据集,其中包含来自不同来源的相互矛盾的信息;2) 使用不同的开源LLM对这些冲突信息进行评估,记录LLM的偏好选择;3) 提出一种新的方法来减轻重复偏见,同时保持LLM对信息来源的固有偏好。该方法通过调整LLM的输入,减少重复信息的影响,从而使LLM能够更准确地评估信息的可靠性。

关键创新:论文的关键创新在于:1) 首次系统性地研究了LLM在知识冲突下对信息来源的偏好;2) 揭示了重复信息可以逆转LLM的来源偏好;3) 提出了一种新的方法,能够在减轻重复偏见的同时,保持LLM对信息来源的固有偏好。这种方法能够提高RAG系统的可靠性和可信度。

关键设计:论文提出的减轻重复偏见的方法的具体技术细节未知,摘要中只提到通过某种方式调整LLM的输入,减少重复信息的影响。具体的参数设置、损失函数、网络结构等细节需要在论文正文中查找。但核心目标是降低重复信息对LLM决策的影响,使其能够更准确地评估信息的来源可靠性。

📊 实验亮点

实验结果表明,LLM倾向于选择来自机构认可的信息来源(如政府或新闻),而非个人或社交媒体。然而,重复来自低可信度来源的信息可以逆转这种偏好。论文提出的新方法能够将重复偏见降低高达99.8%,同时保持至少88.8%的原始来源偏好。这些数据表明该方法在减轻重复偏见和保持来源偏好方面具有显著效果。

🎯 应用场景

该研究成果可应用于提升检索增强生成系统的可靠性和可信度,尤其是在需要处理大量冲突信息的场景下,例如新闻聚合、舆情分析、智能客服等。通过减轻重复偏见,并保持LLM对可靠信息来源的偏好,可以有效避免LLM采纳虚假或误导性信息,从而提高系统的整体性能和用户体验。未来,该研究还可以扩展到其他语言和领域,进一步提升LLM在知识密集型任务中的表现。

📄 摘要(原文)

As large language models (LLMs) are more frequently used in retrieval-augmented generation pipelines, it is increasingly relevant to study their behavior under knowledge conflicts. Thus far, the role of the source of the retrieved information has gone unexamined. We address this gap with a novel framework to investigate how source preferences affect LLM resolution of inter-context knowledge conflicts in English, motivated by interdisciplinary research on credibility. With a comprehensive, tightly-controlled evaluation of 13 open-weight LLMs, we find that LLMs prefer institutionally-corroborated information (e.g., government or newspaper sources) over information from people and social media. However, these source preferences can be reversed by simply repeating information from less credible sources. To mitigate repetition effects and maintain consistent preferences, we propose a novel method that reduces repetition bias by up to 99.8%, while also maintaining at least 88.8% of original preferences. We release all data and code to encourage future work on credibility and source preferences in knowledge-intensive NLP.