Context-aware Decoding Reduces Hallucination in Query-focused Summarization
作者: Zhichao Xu
分类: cs.CL, cs.IR
发布日期: 2023-12-21 (更新: 2026-01-05)
备注: technical report
🔗 代码/项目: GITHUB
💡 一句话要点
提出上下文感知解码以减少查询导向摘要中的幻觉问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 查询导向摘要 上下文感知解码 大型语言模型 信息检索 生成模型
📋 核心要点
- 现有的查询导向摘要方法在使用大型语言模型时容易产生幻觉,影响生成质量。
- 本文提出的上下文感知解码(CAD)方法旨在通过优化解码过程来减少幻觉现象。
- 实验表明,CAD在减少事实错误的同时,ROUGE得分保持稳定,提升了摘要质量。
📝 摘要(中文)
查询导向摘要(QFS)旨在为单一或多个文档提供满足特定查询信息需求的摘要,广泛应用于抽象片段生成和检索增强生成(RAG)等场景。现有的大型语言模型(LLM)在应用时可能导致幻觉现象,尤其是在证据与LLM的先验信念相矛盾时。本文对一种新提出的解码方法——上下文感知解码(CAD)进行了大规模的可重复性研究,除了在新闻摘要数据集上复制CAD的实验外,还在QFS数据集上进行了实验,并对计算复杂度和超参数敏感性进行了更严格的分析。实验结果表明,CAD在减少事实错误和幻觉的同时,基本保持了词汇模式的匹配,尽管推理时间的FLOPs有所增加,解码速度有所降低。
🔬 方法详解
问题定义:本文解决的是查询导向摘要中使用大型语言模型时产生的幻觉问题,现有方法在处理与先验信念相矛盾的证据时表现不佳。
核心思路:论文提出的上下文感知解码(CAD)方法通过考虑上下文信息来优化解码过程,从而减少生成中的幻觉现象。
技术框架:CAD的整体架构包括检索模块和生成模块,检索模块负责获取相关文档,生成模块则利用上下文信息进行摘要生成。
关键创新:CAD的主要创新在于其上下文感知的解码策略,显著区别于传统的解码方法,能够有效减少生成中的事实错误。
关键设计:在实验中,CAD的超参数设置经过严格调优,损失函数设计考虑了生成质量与计算效率的平衡,网络结构则基于现有的LLM进行改进。
📊 实验亮点
实验结果显示,使用上下文感知解码(CAD)方法后,查询导向摘要的事实错误率显著降低,同时ROUGE得分保持稳定,表明生成质量得到了提升。具体而言,CAD在多个语言模型上的表现均优于基线方法,提升幅度明显。
🎯 应用场景
该研究的潜在应用领域包括信息检索、新闻摘要生成和智能问答系统等。通过减少生成中的幻觉现象,CAD能够提升用户获取信息的准确性和可靠性,具有重要的实际价值和广泛的应用前景。
📄 摘要(原文)
Query-focused summarization (QFS) aims to provide a summary of a single document/multi documents that can satisfy the information needs of a given query. It is useful for various real-world applications, such as abstractive snippet generation or more recent retrieval augmented generation (RAG). A prototypical QFS pipeline consists of a retriever (sparse or dense retrieval) and a generator (usually a large language model). However, applying large language models (LLM) potentially leads to hallucinations, especially when the evidence contradicts the prior belief of LLMs. There has been growing interest in developing new decoding methods to improve generation quality and reduce hallucination. In this work, we conduct a large-scale reproducibility study on one recently proposed decoding method\, -- \,Context-aware Decoding (CAD). In addition to replicating CAD's experiments on news summarization datasets, we include experiments on QFS datasets, and conduct more rigorous analysis on computational complexity and hyperparameter sensitivity. Experiments with eight different language models show that performance-wise, CAD improves QFS quality by (1) reducing factuality errors/hallucinations while (2) mostly retaining the match of lexical patterns, measured by ROUGE scores, while also at a cost of increased inference-time FLOPs and reduced decoding speed. The \href{https://github.com/zhichaoxu-shufe/context-aware-decoding-qfs}{code implementation} based on Huggingface Library is made available