Optimizing RAG Rerankers with LLM Feedback via Reinforcement Learning

📄 arXiv: 2604.02091v1 📥 PDF

作者: Yuhang Wu, Xiangqing Shen, Fanfan Wang, Cangqi Zhou, Zhen Wu, Xinyu Dai, Rui Xia

分类: cs.CL, cs.AI, cs.IR

发布日期: 2026-04-02

备注: 16 pages


💡 一句话要点

提出RRPO框架,利用LLM反馈优化RAG重排序器,提升生成质量

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 检索增强生成 重排序 强化学习 LLM反馈 上下文优化

📋 核心要点

  1. 现有重排序模型与下游LLM生成脱节,导致检索到的相关文档无法有效提升生成质量。
  2. 提出RRPO框架,将重排序视为顺序决策过程,利用LLM反馈直接优化上下文效用。
  3. 实验表明,RRPO在知识密集型任务上显著优于现有基线,且具有良好的泛化性和鲁棒性。

📝 摘要(中文)

重排序器在检索增强生成(RAG)中起着关键作用,用于优化检索结果。然而,当前的重排序模型通常基于静态的人工标注相关性标签进行优化,与下游生成过程脱节。这种脱节导致了一个根本性的错位:信息检索指标认为主题相关的文档,往往无法为LLM提供精确答案生成所需的实际效用。为了弥合这一差距,我们引入了重排序偏好优化(RRPO),这是一个强化学习框架,它直接将重排序与LLM的生成质量对齐。通过将重排序建模为顺序决策过程,RRPO利用LLM反馈优化上下文效用,从而无需昂贵的人工标注。为了确保训练稳定性,我们进一步引入了一个参考锚定的确定性基线。在知识密集型基准上的大量实验表明,RRPO显著优于强大的基线,包括强大的列表式重排序器RankZephyr。进一步的分析突出了我们框架的多功能性:它可以无缝地推广到不同的阅读器(例如,GPT-4o),与查询扩展模块(如Query2Doc)正交集成,并且即使在有噪声的监督下训练也能保持稳健。

🔬 方法详解

问题定义:现有RAG系统中的重排序器通常独立于下游的LLM生成过程进行优化,依赖于人工标注的相关性标签。这种方式忽略了LLM对上下文的实际需求,导致检索到的文档虽然在信息检索指标上表现良好,但无法有效提升LLM的生成质量。因此,如何使重排序器更好地服务于LLM的生成过程,是本文要解决的关键问题。

核心思路:本文的核心思路是将重排序过程建模为一个顺序决策过程,并利用强化学习方法,直接根据LLM的反馈来优化重排序策略。通过这种方式,重排序器可以学习到哪些文档对于LLM生成高质量答案最有帮助,从而避免了人工标注的局限性。

技术框架:RRPO框架包含以下主要模块:1) 重排序器:负责对检索到的文档进行排序;2) LLM:作为阅读器,基于重排序后的文档生成答案;3) 奖励函数:基于LLM生成的答案质量,为重排序器提供反馈信号。整个流程如下:首先,重排序器对检索到的文档进行排序;然后,LLM基于排序后的文档生成答案;最后,奖励函数评估答案的质量,并将奖励信号反馈给重排序器,用于更新其策略。

关键创新:RRPO最重要的创新点在于,它直接利用LLM的反馈来优化重排序器,从而实现了重排序与LLM生成过程的对齐。与传统的基于人工标注的方法相比,RRPO无需昂贵的人工标注,并且能够更好地适应LLM的实际需求。此外,为了保证训练的稳定性,RRPO还引入了一个参考锚定的确定性基线。

关键设计:RRPO使用强化学习算法来优化重排序器。具体来说,它将重排序过程建模为一个马尔可夫决策过程,其中状态是查询和检索到的文档,动作是对文档进行排序,奖励是基于LLM生成答案的质量评估。奖励函数的设计至关重要,需要能够准确反映LLM对上下文的实际需求。此外,为了保证训练的稳定性,RRPO还引入了一个参考锚定的确定性基线,用于减少策略更新的方差。具体的参数设置和网络结构细节在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,RRPO在知识密集型基准上显著优于现有基线,包括强大的列表式重排序器RankZephyr。例如,在某些任务上,RRPO的性能提升超过10%。此外,实验还证明了RRPO具有良好的泛化性和鲁棒性,可以无缝地推广到不同的阅读器(例如,GPT-4o),与查询扩展模块(如Query2Doc)正交集成,并且即使在有噪声的监督下训练也能保持稳健。

🎯 应用场景

该研究成果可广泛应用于各种需要RAG的场景,例如问答系统、知识库检索、文档摘要等。通过优化重排序器,可以显著提升LLM生成答案的准确性和相关性,从而提高用户体验和工作效率。未来,该方法还可以扩展到其他领域,例如对话系统、机器翻译等。

📄 摘要(原文)

Rerankers play a pivotal role in refining retrieval results for Retrieval-Augmented Generation. However, current reranking models are typically optimized on static human annotated relevance labels in isolation, decoupled from the downstream generation process. This isolation leads to a fundamental misalignment: documents identified as topically relevant by information retrieval metrics often fail to provide the actual utility required by the LLM for precise answer generation. To bridge this gap, we introduce ReRanking Preference Optimization (RRPO), a reinforcement learning framework that directly aligns reranking with the LLM's generation quality. By formulating reranking as a sequential decision-making process, RRPO optimizes for context utility using LLM feedback, thereby eliminating the need for expensive human annotations. To ensure training stability, we further introduce a reference-anchored deterministic baseline. Extensive experiments on knowledge-intensive benchmarks demonstrate that RRPO significantly outperforms strong baselines, including the powerful list-wise reranker RankZephyr. Further analysis highlights the versatility of our framework: it generalizes seamlessly to diverse readers (e.g., GPT-4o), integrates orthogonally with query expansion modules like Query2Doc, and remains robust even when trained with noisy supervisors.