GenProve: Learning to Generate Text with Fine-Grained Provenance

作者: Jingxuan Wei, Xingyue Wang, Yanghaoyu Liao, Jie Dong, Yuchen Liu, Caijun Jia, Bihui Yu, Junnan Zhu

分类: cs.CL

发布日期: 2026-01-08

💡 一句话要点

GenProve框架通过细粒度溯源提升LLM生成文本的可信度，尤其在推理方面。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 可解释性 溯源 文本生成 监督式微调 强化学习 推理 知识图谱

📋 核心要点

现有LLM生成文本时存在幻觉问题，简单的添加引用不足以保证生成内容的可信度和可追溯性。
GenProve框架通过生成细粒度的句子级别溯源三元组，区分引用、压缩和推理，提升模型的可解释性。
实验表明，GenProve在答案保真度和溯源正确性方面显著优于现有LLM，但推理溯源仍是挑战。

📝 摘要（中文）

大型语言模型（LLM）经常产生幻觉。虽然添加引用是一种常见的解决方案，但由于用户难以验证引用的来源如何支持生成的声明，因此这种方法通常不足以保证责任追溯。现有方法通常是粗粒度的，无法区分直接引用和复杂推理。本文介绍了生成时细粒度溯源，模型必须生成流畅的答案，同时生成结构化的句子级溯源三元组。为此，我们提出了ReFInE（关系感知细粒度可解释性和证据）数据集，该数据集具有专家验证的注释，区分了引用、压缩和推理。基于ReFInE，我们提出了GenProve框架，该框架结合了监督式微调（SFT）和群体相对策略优化（GRPO）。通过优化答案保真度和溯源正确性的复合奖励，GenProve在联合评估中显著优于14个强大的LLM。我们的分析揭示了一个推理差距，即模型擅长表面级别的引用，但在基于推理的溯源方面表现不佳，这表明可验证的推理仍然是一个前沿挑战，与表面级别的引用不同。

🔬 方法详解

问题定义：LLM在生成文本时容易出现幻觉，即生成不真实或无法验证的内容。简单的添加引用虽然可以提供一定的可追溯性，但用户难以验证引用的来源是否真正支持生成的声明。现有方法通常是粗粒度的，无法区分直接引用、信息压缩和复杂推理等不同的溯源方式，导致可信度不高。

核心思路：GenProve的核心思路是在生成文本的同时，生成细粒度的句子级别溯源信息，即对于生成的每个句子，模型需要给出对应的溯源三元组，明确指出该句子是直接引用、信息压缩还是基于推理得出的。通过这种方式，用户可以更清晰地了解模型生成内容的依据，从而提高模型的可信度。

技术框架：GenProve框架主要包含两个阶段：首先，使用ReFInE数据集进行监督式微调（SFT），ReFInE数据集包含专家标注的句子级别溯源信息，区分了引用、压缩和推理三种溯源方式。然后，使用群体相对策略优化（GRPO）对模型进行进一步优化，GRPO通过优化答案保真度和溯源正确性的复合奖励，鼓励模型生成更准确、更可信的文本。

关键创新：GenProve的关键创新在于提出了生成时细粒度溯源的任务，并设计了相应的框架来实现这一目标。与现有方法相比，GenProve能够生成更细粒度的溯源信息，区分不同的溯源方式，从而提高模型的可解释性和可信度。此外，ReFInE数据集的构建也为该领域的研究提供了宝贵的数据资源。

关键设计：ReFInE数据集包含三种类型的溯源关系：Quotation（直接引用）、Compression（信息压缩）和Inference（推理）。GenProve框架使用SFT和GRPO进行训练，其中GRPO的目标是最大化一个复合奖励函数，该函数同时考虑了答案的保真度和溯源的正确性。具体来说，奖励函数可以表示为R = α * R_fidelity + (1 - α) * R_provenance，其中R_fidelity表示答案的保真度奖励，R_provenance表示溯源的正确性奖励，α是一个超参数，用于平衡两者之间的权重。

📊 实验亮点

实验结果表明，GenProve在联合评估中显著优于14个强大的LLM，证明了其在生成细粒度溯源信息方面的有效性。具体来说，GenProve在答案保真度和溯源正确性方面都取得了显著提升。然而，实验也揭示了一个推理差距，即模型擅长表面级别的引用，但在基于推理的溯源方面表现不佳，这表明可验证的推理仍然是一个前沿挑战。

🎯 应用场景

GenProve框架可以应用于各种需要高可信度和可解释性的文本生成场景，例如自动问答、知识图谱推理、新闻生成等。通过提供细粒度的溯源信息，GenProve可以帮助用户更好地理解和信任模型生成的文本，从而提高模型在实际应用中的价值。未来，该技术有望应用于医疗、金融等对信息准确性要求极高的领域。

📄 摘要（原文）

Large language models (LLM) often hallucinate, and while adding citations is a common solution, it is frequently insufficient for accountability as users struggle to verify how a cited source supports a generated claim. Existing methods are typically coarse-grained and fail to distinguish between direct quotes and complex reasoning. In this paper, we introduce Generation-time Fine-grained Provenance, a task where models must generate fluent answers while simultaneously producing structured, sentence-level provenance triples. To enable this, we present ReFInE (Relation-aware Fine-grained Interpretability & Evidence), a dataset featuring expert verified annotations that distinguish between Quotation, Compression, and Inference. Building on ReFInE, we propose GenProve, a framework that combines Supervised Fine-Tuning (SFT) with Group Relative Policy Optimization (GRPO). By optimizing a composite reward for answer fidelity and provenance correctness, GenProve significantly outperforms 14 strong LLMs in joint evaluation. Crucially, our analysis uncovers a reasoning gap where models excel at surface-level quotation but struggle significantly with inference-based provenance, suggesting that verifiable reasoning remains a frontier challenge distinct from surface-level citation.

GenProve: Learning to Generate Text with Fine-Grained Provenance

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册