Not Wrong, But Untrue: LLM Overconfidence in Document-Based Queries
作者: Nick Hagar, Wilma Agustianto, Nicholas Diakopoulos
分类: cs.CL, cs.AI
发布日期: 2025-09-29
备注: Accepted to Computation + Journalism Symposium 2025
💡 一句话要点
LLM在文档问答中过度自信:揭示新闻场景下的幻觉问题与溯源挑战
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 幻觉问题 新闻报道 文档问答 溯源 知识归属 自然语言处理
📋 核心要点
- 现有LLM在新闻场景下易产生幻觉,威胁新闻报道的溯源和准确性,亟需评估和改进。
- 该研究通过构建文档问答任务,分析LLM在不同提示和上下文下的幻觉类型与严重程度。
- 实验表明,LLM存在过度自信问题,倾向于添加无根据描述,并提出新闻领域幻觉分类扩展。
📝 摘要(中文)
大型语言模型(LLMs)越来越多地应用于新闻编辑室的工作流程中,但其产生幻觉的倾向对新闻报道的核心实践,如溯源、归属和准确性构成了风险。本文评估了三种广泛使用的工具——ChatGPT、Gemini和NotebookLM,在一个基于美国TikTok诉讼和政策相关的300篇文档语料库的报告任务中。通过改变提示的特异性和上下文大小,并使用分类法注释句子级别的输出,以测量幻觉的类型和严重程度。在我们的样本中,30%的模型输出包含至少一个幻觉,Gemini和ChatGPT的幻觉率(40%)大约是NotebookLM(13%)的三倍。从定性角度来看,大多数错误不涉及虚构的实体或数字;相反,我们观察到解释性过度自信——模型添加了对来源的无根据描述,并将归属的观点转化为一般性陈述。这些模式揭示了一种根本性的认识论不匹配:虽然新闻报道要求对每一项声明进行明确的溯源,但LLM会生成听起来权威的文本,而不管是否有证据支持。我们提出了针对新闻报道的现有幻觉分类法的扩展,并认为有效的新闻编辑室工具需要强制执行准确归属的架构,而不是优化流畅性。
🔬 方法详解
问题定义:论文旨在研究大型语言模型(LLMs)在处理基于文档的新闻报道任务时,出现的幻觉问题。现有方法在新闻编辑室的应用中,由于LLM的幻觉倾向,对新闻报道的溯源、归属和准确性构成潜在威胁。现有LLM在生成内容时,缺乏对证据的严格依赖,容易产生不准确或捏造的信息,这与新闻行业的专业规范相悖。
核心思路:论文的核心思路是通过构建一个模拟新闻报道场景的文档问答任务,系统性地评估不同LLM的幻觉表现。通过改变提示的特异性和上下文大小,观察模型在不同条件下的幻觉率和类型。同时,对模型的输出进行细粒度的标注和分析,以识别幻觉的模式和原因。最终,提出针对新闻领域的幻觉分类扩展,并建议构建强制执行准确归属的LLM架构。
技术框架:该研究的技术框架主要包括以下几个部分:1) 构建包含300篇与TikTok诉讼和政策相关的文档语料库;2) 设计基于该语料库的文档问答任务,模拟新闻报道场景;3) 选择三种广泛使用的LLM(ChatGPT、Gemini和NotebookLM)进行评估;4) 通过改变提示的特异性和上下文大小来控制实验变量;5) 对模型输出进行句子级别的标注,使用自定义的幻觉分类法来测量幻觉类型和严重程度;6) 对实验结果进行统计分析和定性分析,识别幻觉的模式和原因。
关键创新:论文的关键创新在于:1) 揭示了LLM在新闻报道场景下存在的“解释性过度自信”问题,即模型倾向于添加对来源的无根据描述,并将归属的观点转化为一般性陈述;2) 提出了针对新闻领域的幻觉分类扩展,更细致地刻画了新闻报道中可能出现的幻觉类型;3) 强调了在新闻编辑室应用LLM时,需要构建强制执行准确归属的架构,而不是仅仅优化流畅性。
关键设计:论文的关键设计包括:1) 提示工程:通过改变提示的特异性(例如,要求模型提供明确的来源)来观察模型对证据的依赖程度;2) 上下文控制:通过改变上下文大小来评估模型在处理长文档时的幻觉表现;3) 幻觉分类法:设计了包含多种幻觉类型的分类法,例如,事实性错误、归属错误、解释性错误等,以便对模型输出进行细粒度的标注和分析;4) 评估指标:使用了幻觉率作为主要的评估指标,即模型输出中包含至少一个幻觉的句子比例。
📊 实验亮点
实验结果表明,30%的模型输出包含至少一个幻觉,Gemini和ChatGPT的幻觉率高达40%,而NotebookLM的幻觉率相对较低,为13%。定性分析发现,LLM的主要问题在于解释性过度自信,而非捏造事实或数字。该研究强调了新闻领域对LLM准确性和溯源能力的需求。
🎯 应用场景
该研究成果可应用于新闻编辑室的LLM工具开发,帮助构建更可靠、准确的新闻生成系统。通过改进LLM的溯源能力,减少幻觉,提升新闻报道的质量和可信度。此外,该研究提出的幻觉分类法可用于评估和改进其他领域的LLM应用,例如法律、医疗等。
📄 摘要(原文)
Large language models (LLMs) are increasingly used in newsroom workflows, but their tendency to hallucinate poses risks to core journalistic practices of sourcing, attribution, and accuracy. We evaluate three widely used tools - ChatGPT, Gemini, and NotebookLM - on a reporting-style task grounded in a 300-document corpus related to TikTok litigation and policy in the U.S. We vary prompt specificity and context size and annotate sentence-level outputs using a taxonomy to measure hallucination type and severity. Across our sample, 30% of model outputs contained at least one hallucination, with rates approximately three times higher for Gemini and ChatGPT (40%) than for NotebookLM (13%). Qualitatively, most errors did not involve invented entities or numbers; instead, we observed interpretive overconfidence - models added unsupported characterizations of sources and transformed attributed opinions into general statements. These patterns reveal a fundamental epistemological mismatch: While journalism requires explicit sourcing for every claim, LLMs generate authoritative-sounding text regardless of evidentiary support. We propose journalism-specific extensions to existing hallucination taxonomies and argue that effective newsroom tools need architectures that enforce accurate attribution rather than optimize for fluency.