GenProve: Learning to Generate Text with Fine-Grained Provenance

📄 arXiv: 2601.04932v1 📥 PDF

作者: Jingxuan Wei, Xingyue Wang, Yanghaoyu Liao, Jie Dong, Yuchen Liu, Caijun Jia, Bihui Yu, Junnan Zhu

分类: cs.CL

发布日期: 2026-01-08


💡 一句话要点

GenProve框架通过细粒度溯源提升LLM生成文本的可信度,尤其在推理方面。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 可解释性 溯源 文本生成 监督式微调 强化学习 推理 知识图谱

📋 核心要点

  1. 现有LLM生成文本时存在幻觉问题,简单的添加引用不足以保证生成内容的可信度和可追溯性。
  2. GenProve框架通过生成细粒度的句子级别溯源三元组,区分引用、压缩和推理,提升模型的可解释性。
  3. 实验表明,GenProve在答案保真度和溯源正确性方面显著优于现有LLM,但推理溯源仍是挑战。

📝 摘要(中文)

大型语言模型(LLM)经常产生幻觉。虽然添加引用是一种常见的解决方案,但由于用户难以验证引用的来源如何支持生成的声明,因此这种方法通常不足以保证责任追溯。现有方法通常是粗粒度的,无法区分直接引用和复杂推理。本文介绍了生成时细粒度溯源,模型必须生成流畅的答案,同时生成结构化的句子级溯源三元组。为此,我们提出了ReFInE(关系感知细粒度可解释性和证据)数据集,该数据集具有专家验证的注释,区分了引用、压缩和推理。基于ReFInE,我们提出了GenProve框架,该框架结合了监督式微调(SFT)和群体相对策略优化(GRPO)。通过优化答案保真度和溯源正确性的复合奖励,GenProve在联合评估中显著优于14个强大的LLM。我们的分析揭示了一个推理差距,即模型擅长表面级别的引用,但在基于推理的溯源方面表现不佳,这表明可验证的推理仍然是一个前沿挑战,与表面级别的引用不同。

🔬 方法详解

问题定义:LLM在生成文本时容易出现幻觉,即生成不真实或无法验证的内容。简单的添加引用虽然可以提供一定的可追溯性,但用户难以验证引用的来源是否真正支持生成的声明。现有方法通常是粗粒度的,无法区分直接引用、信息压缩和复杂推理等不同的溯源方式,导致可信度不高。

核心思路:GenProve的核心思路是在生成文本的同时,生成细粒度的句子级别溯源信息,即对于生成的每个句子,模型需要给出对应的溯源三元组,明确指出该句子是直接引用、信息压缩还是基于推理得出的。通过这种方式,用户可以更清晰地了解模型生成内容的依据,从而提高模型的可信度。

技术框架:GenProve框架主要包含两个阶段:首先,使用ReFInE数据集进行监督式微调(SFT),ReFInE数据集包含专家标注的句子级别溯源信息,区分了引用、压缩和推理三种溯源方式。然后,使用群体相对策略优化(GRPO)对模型进行进一步优化,GRPO通过优化答案保真度和溯源正确性的复合奖励,鼓励模型生成更准确、更可信的文本。

关键创新:GenProve的关键创新在于提出了生成时细粒度溯源的任务,并设计了相应的框架来实现这一目标。与现有方法相比,GenProve能够生成更细粒度的溯源信息,区分不同的溯源方式,从而提高模型的可解释性和可信度。此外,ReFInE数据集的构建也为该领域的研究提供了宝贵的数据资源。

关键设计:ReFInE数据集包含三种类型的溯源关系:Quotation(直接引用)、Compression(信息压缩)和Inference(推理)。GenProve框架使用SFT和GRPO进行训练,其中GRPO的目标是最大化一个复合奖励函数,该函数同时考虑了答案的保真度和溯源的正确性。具体来说,奖励函数可以表示为R = α * R_fidelity + (1 - α) * R_provenance,其中R_fidelity表示答案的保真度奖励,R_provenance表示溯源的正确性奖励,α是一个超参数,用于平衡两者之间的权重。

📊 实验亮点

实验结果表明,GenProve在联合评估中显著优于14个强大的LLM,证明了其在生成细粒度溯源信息方面的有效性。具体来说,GenProve在答案保真度和溯源正确性方面都取得了显著提升。然而,实验也揭示了一个推理差距,即模型擅长表面级别的引用,但在基于推理的溯源方面表现不佳,这表明可验证的推理仍然是一个前沿挑战。

🎯 应用场景

GenProve框架可以应用于各种需要高可信度和可解释性的文本生成场景,例如自动问答、知识图谱推理、新闻生成等。通过提供细粒度的溯源信息,GenProve可以帮助用户更好地理解和信任模型生成的文本,从而提高模型在实际应用中的价值。未来,该技术有望应用于医疗、金融等对信息准确性要求极高的领域。

📄 摘要(原文)

Large language models (LLM) often hallucinate, and while adding citations is a common solution, it is frequently insufficient for accountability as users struggle to verify how a cited source supports a generated claim. Existing methods are typically coarse-grained and fail to distinguish between direct quotes and complex reasoning. In this paper, we introduce Generation-time Fine-grained Provenance, a task where models must generate fluent answers while simultaneously producing structured, sentence-level provenance triples. To enable this, we present ReFInE (Relation-aware Fine-grained Interpretability & Evidence), a dataset featuring expert verified annotations that distinguish between Quotation, Compression, and Inference. Building on ReFInE, we propose GenProve, a framework that combines Supervised Fine-Tuning (SFT) with Group Relative Policy Optimization (GRPO). By optimizing a composite reward for answer fidelity and provenance correctness, GenProve significantly outperforms 14 strong LLMs in joint evaluation. Crucially, our analysis uncovers a reasoning gap where models excel at surface-level quotation but struggle significantly with inference-based provenance, suggesting that verifiable reasoning remains a frontier challenge distinct from surface-level citation.