SRAS: A Lightweight Reinforcement Learning-based Document Selector for Edge-Native RAG Pipelines

作者: Rajiv Chaitanya Muttur

分类: cs.IR, cs.LG

发布日期: 2026-01-05

备注: Presented at ICEdge 2025; nominated for Best Paper Award

💡 一句话要点

提出SRAS：一种轻量级强化学习文档选择器，用于边缘原生RAG流水线。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 检索增强生成 强化学习 文档选择 边缘计算 近端策略优化 轻量级模型 自然语言处理

📋 核心要点

现有RAG系统依赖固定top-k选择，忽略下游生成质量，计算开销大，不适用于边缘设备。
SRAS利用强化学习训练轻量级文档选择策略，结合Relaxed F1和BERTScore作为混合奖励。
SRAS在CPU上延迟<1秒，在合成和真实数据集上均优于传统方法，无需领域特定调整。

📝 摘要（中文）

检索增强生成(RAG)系统通常依赖于固定的top-k文档选择机制，忽略了下游生成质量并带来了计算开销。我们提出了SRAS（稀疏奖励感知选择器），一种通过强化学习(RL)训练的轻量级文档选择器，用于边缘原生RAG部署。与之前假设大内存和延迟预算的基于RL的检索器不同，SRAS使用近端策略优化(PPO)学习了一个紧凑的策略（约0.76MB），并由结合了Relaxed F1和BERTScore的混合奖励信号引导。我们的方法在严格的token和计算约束下运行，在CPU上保持<1秒的延迟。SRAS在合成QA基准测试中优于监督和随机选择器，并推广到真实世界数据，在SQuAD v2上实现了0.8546的BERTScore F1，无需特定领域的调整。这项工作首次证明了基于RL的文档选择可以变得超轻量级、延迟感知且对设备上的RAG流水线有效。

🔬 方法详解

问题定义：RAG系统中文档检索模块通常采用固定的top-k策略，这种策略无法根据下游生成任务的实际需求进行优化，导致检索到的文档可能包含大量冗余信息，增加了计算负担，并且影响最终生成结果的质量。特别是在边缘设备上部署RAG系统时，计算资源和延迟要求更加严格，传统的top-k策略难以满足需求。

核心思路：SRAS的核心思路是利用强化学习(RL)训练一个轻量级的文档选择器，该选择器能够根据下游生成任务的反馈（奖励信号）动态地选择最相关的文档。通过学习一个紧凑的策略，SRAS能够在计算资源有限的边缘设备上高效地运行，并优化RAG系统的整体性能。

技术框架：SRAS的整体框架包括以下几个主要模块：1) 文档编码器：将文档编码成向量表示；2) 策略网络：根据查询和文档向量，输出选择每个文档的概率；3) 环境：模拟RAG系统的运行环境，接收选择的文档，并生成答案；4) 奖励函数：根据生成的答案质量，计算奖励信号，反馈给策略网络。SRAS使用近端策略优化(PPO)算法来训练策略网络。

关键创新：SRAS最重要的技术创新点在于其轻量级的设计和强化学习的训练方式。与传统的基于规则或监督学习的文档选择方法相比，SRAS能够根据下游任务的反馈进行自适应优化，并且其紧凑的模型大小使其非常适合在边缘设备上部署。此外，SRAS采用混合奖励信号，结合了Relaxed F1和BERTScore，能够更全面地评估生成答案的质量。

关键设计：SRAS的关键设计包括：1) 策略网络采用小型神经网络，参数量控制在0.76MB以内；2) 奖励函数采用Relaxed F1和BERTScore的加权平均，权重根据实验结果进行调整；3) 使用PPO算法进行训练，设置合适的学习率、折扣因子和裁剪参数；4) 在训练过程中，采用token和计算约束，模拟边缘设备的资源限制。

🖼️ 关键图片

📊 实验亮点

SRAS在合成QA基准测试中优于监督和随机选择器，并在SQuAD v2数据集上取得了显著的性能提升，BERTScore F1达到0.8546，且无需任何领域特定的调整。该模型大小仅为0.76MB，在CPU上的延迟小于1秒，验证了其在边缘设备上部署的可行性和有效性。

🎯 应用场景

SRAS适用于各种需要在边缘设备上部署的RAG系统，例如智能助手、移动搜索、本地知识库问答等。它能够显著降低计算开销，提高响应速度，并提升生成结果的质量。该研究为边缘计算和人工智能的结合提供了新的思路，有望推动更多智能应用在资源受限的环境中落地。

📄 摘要（原文）

Retrieval-Augmented Generation (RAG) systems often rely on fixed top-k document selection mechanisms that ignore downstream generation quality and impose computational overheads. We propose SRAS (Sparse Reward-Aware Selector), a lightweight document selector trained via reinforcement learning (RL) for edge-native RAG deployment. Unlike prior RL-based retrievers that assume large memory and latency budgets, SRAS learns a compact (~0.76MB) policy using Proximal Policy Optimization (PPO), guided by a hybrid reward signal combining Relaxed F1 and BERTScore. Our method operates under tight token and compute constraints, maintaining <1s latency on CPU. SRAS outperforms supervised and random selectors on a synthetic QA benchmark, and generalizes to real-world data, achieving BERTScore F1 of 0.8546 on SQuAD v2 without domain-specific tuning. This work is the first to demonstrate that RL-based document selection can be made ultra-lightweight, latency-aware, and effective for on-device RAG pipelines.

SRAS: A Lightweight Reinforcement Learning-based Document Selector for Edge-Native RAG Pipelines

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册