Correcting Hallucinations in News Summaries: Exploration of Self-Correcting LLM Methods with External Knowledge
作者: Juraj Vladika, Ihsan Soydemir, Florian Matthes
分类: cs.CL
发布日期: 2025-06-24
备注: Accepted to FEVER @ ACL 2025
💡 一句话要点
提出自我纠正方法以解决新闻摘要中的虚假信息问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 自我纠正 虚假信息 新闻摘要 外部知识 多轮交互 信息检索
📋 核心要点
- 现有大型语言模型在生成新闻摘要时常出现虚假信息,影响信息的准确性和可靠性。
- 本文提出自我纠正方法,通过多轮生成验证问题并利用外部知识进行修正,从而提高摘要的准确性。
- 实验结果表明,所提出的方法在纠正虚假摘要方面表现优异,且与人工评估结果高度一致。
📝 摘要(中文)
尽管大型语言模型(LLMs)在生成连贯文本方面表现出色,但它们仍然面临虚假信息的问题,即事实不准确的陈述。为了解决这一问题,本文探讨了自我纠正方法,这些方法利用LLMs的多轮特性,迭代生成验证问题以询问额外证据,并用内部或外部知识回答这些问题,从而修正原始响应。我们将两种最先进的自我纠正系统应用于纠正虚假新闻摘要,并分析结果,揭示搜索引擎片段和少量示例的实际益处,以及G-Eval与人工评估的高度一致性。
🔬 方法详解
问题定义:本文旨在解决大型语言模型在生成新闻摘要时产生的虚假信息问题。现有方法往往无法有效验证生成内容的准确性,导致信息失真。
核心思路:论文提出的自我纠正方法通过多轮交互生成验证问题,利用外部知识源对生成的摘要进行校正,从而提高信息的准确性和可靠性。
技术框架:整体架构包括三个主要模块:首先,生成初步摘要;其次,基于初步摘要生成验证问题;最后,利用外部知识库回答这些问题并修正摘要。
关键创新:最重要的创新在于将自我纠正机制与外部知识结合,形成一个迭代的反馈循环,从而显著提高了摘要的准确性,与传统方法相比具有本质区别。
关键设计:在设计中,采用了多轮问答机制,结合了多个搜索引擎的知识片段,并通过少量示例提示来优化模型的响应质量。
📊 实验亮点
实验结果显示,所提出的自我纠正方法在纠正虚假摘要方面显著优于基线模型,G-Eval评分与人工评估结果高度一致,表明该方法在实际应用中的有效性和可靠性。
🎯 应用场景
该研究的潜在应用领域包括新闻媒体、信息检索和内容生成等。通过提高新闻摘要的准确性,能够增强公众对信息的信任度,减少虚假信息的传播,具有重要的社会价值和实际影响。
📄 摘要(原文)
While large language models (LLMs) have shown remarkable capabilities to generate coherent text, they suffer from the issue of hallucinations -- factually inaccurate statements. Among numerous approaches to tackle hallucinations, especially promising are the self-correcting methods. They leverage the multi-turn nature of LLMs to iteratively generate verification questions inquiring additional evidence, answer them with internal or external knowledge, and use that to refine the original response with the new corrections. These methods have been explored for encyclopedic generation, but less so for domains like news summarization. In this work, we investigate two state-of-the-art self-correcting systems by applying them to correct hallucinated summaries using evidence from three search engines. We analyze the results and provide insights into systems' performance, revealing interesting practical findings on the benefits of search engine snippets and few-shot prompts, as well as high alignment of G-Eval and human evaluation.