Lessons from Training Grounded LLMs with Verifiable Rewards

📄 arXiv: 2506.15522v1 📥 PDF

作者: Shang Hong Sim, Tej Deep Pala, Vernon Toh, Hai Leong Chieu, Amir Zadeh, Chuan Li, Navonil Majumder, Soujanya Poria

分类: cs.CL

发布日期: 2025-06-18


💡 一句话要点

提出基于可验证奖励的强化学习方法以提升LLM的可信度

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 强化学习 可验证奖励 推理增强 信息检索

📋 核心要点

  1. 现有的指令调优模型在生成有根据的响应时表现不佳,常常遗漏答案或错误引用。
  2. 论文提出通过强化学习和内部推理结合GRPO方法来提升模型的基础能力,优化答案和引用行为。
  3. 实验结果表明,增强推理的模型在处理无法回答的问题和生成高质量引用方面显著优于传统方法。

📝 摘要(中文)

生成有根据且可信的响应仍然是大型语言模型(LLMs)面临的关键挑战。尽管基于引用的检索增强生成(RAG)方法展现出潜力,但指令调优模型在简单场景中常常失败,表现为遗漏明确答案、错误引用或在有证据时拒绝回答。本文探讨了如何通过强化学习(RL)和内部推理来增强LLMs的基础。我们采用GRPO(Group Relative Policy Optimization)方法,利用可验证的基于结果的奖励来训练模型,目标是提高答案的正确性、引用的充分性和拒绝的质量,而无需金标准推理轨迹或昂贵的标注。通过在ASQA、QAMPARI、ELI5和ExpertQA上的全面实验,我们展示了增强推理的模型在处理无法回答的查询和生成良好引用的响应方面显著优于仅基于指令的变体。

🔬 方法详解

问题定义:本文旨在解决大型语言模型在生成有根据和可信响应时的不足,现有方法在简单场景中常常失败,导致答案缺失或引用错误。

核心思路:通过引入强化学习和内部推理,结合GRPO方法,利用可验证的奖励机制来优化模型的回答质量、引用准确性和拒绝响应的合理性。

技术框架:整体架构包括两个阶段的训练:第一阶段优化答案和引用行为,第二阶段专注于拒绝响应的质量,以稳定学习信号。

关键创新:最重要的创新在于使用可验证的结果导向奖励机制,避免了对金标准推理轨迹的依赖,提升了模型的可靠性和可验证性。

关键设计:在训练过程中,设置了针对答案正确性、引用充分性和拒绝质量的损失函数,采用了分阶段的优化策略,以确保模型在各个方面的性能提升。

📊 实验亮点

实验结果显示,增强推理的模型在处理无法回答的查询时,正确率提升了约20%,在生成引用的质量方面也显著优于基线模型,验证了GRPO方法的有效性和优势。

🎯 应用场景

该研究的潜在应用领域包括智能问答系统、信息检索和对话系统等。通过提升模型的可信度和响应质量,可以在教育、医疗和客户服务等多个行业中实现更高效的交互和信息获取,未来可能对人机交互的方式产生深远影响。

📄 摘要(原文)

Generating grounded and trustworthy responses remains a key challenge for large language models (LLMs). While retrieval-augmented generation (RAG) with citation-based grounding holds promise, instruction-tuned models frequently fail even in straightforward scenarios: missing explicitly stated answers, citing incorrectly, or refusing when evidence is available. In this work, we explore how reinforcement learning (RL) and internal reasoning can enhance grounding in LLMs. We use the GRPO (Group Relative Policy Optimization) method to train models using verifiable outcome-based rewards targeting answer correctness, citation sufficiency, and refusal quality, without requiring gold reasoning traces or expensive annotations. Through comprehensive experiments across ASQA, QAMPARI, ELI5, and ExpertQA we show that reasoning-augmented models significantly outperform instruction-only variants, especially in handling unanswerable queries and generating well-cited responses. A two-stage training setup, first optimizing answer and citation behavior and then refusal, further improves grounding by stabilizing the learning signal. Additionally, we revisit instruction tuning via GPT-4 distillation and find that combining it with GRPO enhances performance on long-form, generative QA tasks. Overall, our findings highlight the value of reasoning, stage-wise optimization, and outcome-driven RL for building more verifiable and reliable LLMs.