RL-Guided Data Selection for Language Model Finetuning

作者: Animesh Jha, Harshit Gupta, Ananjan Nandi

分类: cs.LG

发布日期: 2025-09-30

备注: To appear in NeurIPS 2025 Constrained Optimization for ML Workshop

💡 一句话要点

提出基于强化学习的数据选择方法，提升大语言模型微调效率与性能。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 强化学习 数据选择 大语言模型 微调 马尔可夫决策过程

📋 核心要点

现有数据选择方法难以直接应用于大语言模型微调，且计算复杂度高，难以在有限预算下优化模型性能。
将数据选择问题建模为马尔可夫决策过程，利用强化学习训练智能体，学习最优数据选择策略。
实验表明，该方法在显著减少训练数据和时间的同时，能够提升模型在下游任务上的性能。

📝 摘要（中文）

本文将大语言模型（LLM）微调的数据选择问题建模为带预算约束的优化问题，目标是在严格的训练数据预算下最大化模型的下游性能。由于直接求解该问题通常是难以处理的，并且现有的近似方法主要面向预训练，迁移到微调设置时效果不佳。因此，本文将该问题重新表述为一个可处理的马尔可夫决策过程（MDP），并使用各种强化学习（RL）方法训练智能体，以学习最优的数据选择策略，该策略由高效的、基于代理模型的奖励信号指导。在四个数据集上的实验表明，使用本文方法选择的5%子集进行训练，其性能与使用完整数据集进行微调相比，匹配甚至超过了完整数据集的性能，准确率最高提升了10.8个百分点，同时减少了高达2倍的实际训练时间，突显了强化学习指导的数据选择方法的潜力。

🔬 方法详解

问题定义：论文旨在解决大语言模型微调过程中，如何在有限的训练数据预算下，选择最具信息量的子集，以最大化模型在下游任务上的性能。现有方法，特别是那些面向预训练的方法，在微调场景下表现不佳，并且直接优化数据选择策略通常是NP-hard问题，计算复杂度高。

核心思路：论文的核心思路是将数据选择过程建模为一个马尔可夫决策过程（MDP），并利用强化学习（RL）训练一个智能体，该智能体通过与环境交互，学习选择哪些数据样本进行微调。这种方法允许智能体根据代理模型的反馈，逐步优化数据选择策略，从而在有限的预算下找到最优的数据子集。

技术框架：整体框架包含以下几个主要模块：1) 环境：由数据集和代理模型组成，代理模型用于快速评估选择的数据子集的质量。2) 智能体：使用强化学习算法（如PPO）训练，负责选择数据样本。3) 奖励函数：基于代理模型在验证集上的性能变化，为智能体的行为提供反馈。4) MDP：将数据选择过程建模为状态（已选择的数据子集）、动作（选择下一个数据样本）和奖励（代理模型性能提升）的序列。

关键创新：论文的关键创新在于将数据选择问题转化为一个可解的MDP，并利用强化学习来学习最优的数据选择策略。与传统的基于启发式或预训练的方法不同，该方法能够根据微调任务的特点，自适应地选择数据，从而提高微调效率和性能。此外，使用代理模型作为奖励信号，避免了直接在完整模型上进行评估，大大降低了计算成本。

关键设计：论文使用一个较小的、计算成本较低的模型作为代理模型，用于快速评估数据子集的质量。奖励函数的设计至关重要，它需要能够准确反映数据子集对模型性能的影响。论文采用PPO算法训练智能体，并仔细调整了超参数，以确保训练的稳定性和收敛性。具体的数据选择策略由智能体学习得到，没有预先设定任何人工规则。

📊 实验亮点

实验结果表明，使用该方法选择的5%数据子集进行微调，在四个数据集上均能达到或超过使用完整数据集微调的性能，准确率最高提升了10.8个百分点，同时训练时间缩短了高达2倍。这些结果验证了基于强化学习的数据选择方法的有效性。

🎯 应用场景

该研究成果可广泛应用于自然语言处理领域，尤其是在资源受限的情况下，例如移动设备上的模型部署、低成本的语言模型微调等。通过智能地选择训练数据，可以显著降低训练成本，提高模型性能，加速大语言模型在各个领域的应用。

📄 摘要（原文）

Data selection for finetuning Large Language Models (LLMs) can be framed as a budget-constrained optimization problem: maximizing a model's downstream performance under a strict training data budget. Solving this problem is generally intractable, and existing approximate approaches are pretraining-oriented and transfer poorly to the fine-tuning setting. We reformulate this problem as a tractable Markov Decision Process (MDP) and train agents using various Reinforcement Learning (RL) methods to learn optimal data selection policies, guided by an efficient, proxy-model-based reward signal. Across four datasets, training on a $5\%$ subset selected by our approach matches or outperforms fine-tuning on the full dataset by up to $10.8$ accuracy points, while cutting wall-clock training time by up to $2 \times$, highlighting the promise of RL-guided data selection.

RL-Guided Data Selection for Language Model Finetuning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册