RL-Guided Data Selection for Language Model Finetuning
作者: Animesh Jha, Harshit Gupta, Ananjan Nandi
分类: cs.LG
发布日期: 2025-09-30
备注: To appear in NeurIPS 2025 Constrained Optimization for ML Workshop
💡 一句话要点
提出基于强化学习的数据选择方法,提升大语言模型微调效率与性能。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 强化学习 数据选择 大语言模型 微调 马尔可夫决策过程
📋 核心要点
- 现有数据选择方法难以直接应用于大语言模型微调,且计算复杂度高,难以在有限预算下优化模型性能。
- 将数据选择问题建模为马尔可夫决策过程,利用强化学习训练智能体,学习最优数据选择策略。
- 实验表明,该方法在显著减少训练数据和时间的同时,能够提升模型在下游任务上的性能。
📝 摘要(中文)
本文将大语言模型(LLM)微调的数据选择问题建模为带预算约束的优化问题,目标是在严格的训练数据预算下最大化模型的下游性能。由于直接求解该问题通常是难以处理的,并且现有的近似方法主要面向预训练,迁移到微调设置时效果不佳。因此,本文将该问题重新表述为一个可处理的马尔可夫决策过程(MDP),并使用各种强化学习(RL)方法训练智能体,以学习最优的数据选择策略,该策略由高效的、基于代理模型的奖励信号指导。在四个数据集上的实验表明,使用本文方法选择的5%子集进行训练,其性能与使用完整数据集进行微调相比,匹配甚至超过了完整数据集的性能,准确率最高提升了10.8个百分点,同时减少了高达2倍的实际训练时间,突显了强化学习指导的数据选择方法的潜力。
🔬 方法详解
问题定义:论文旨在解决大语言模型微调过程中,如何在有限的训练数据预算下,选择最具信息量的子集,以最大化模型在下游任务上的性能。现有方法,特别是那些面向预训练的方法,在微调场景下表现不佳,并且直接优化数据选择策略通常是NP-hard问题,计算复杂度高。
核心思路:论文的核心思路是将数据选择过程建模为一个马尔可夫决策过程(MDP),并利用强化学习(RL)训练一个智能体,该智能体通过与环境交互,学习选择哪些数据样本进行微调。这种方法允许智能体根据代理模型的反馈,逐步优化数据选择策略,从而在有限的预算下找到最优的数据子集。
技术框架:整体框架包含以下几个主要模块:1) 环境:由数据集和代理模型组成,代理模型用于快速评估选择的数据子集的质量。2) 智能体:使用强化学习算法(如PPO)训练,负责选择数据样本。3) 奖励函数:基于代理模型在验证集上的性能变化,为智能体的行为提供反馈。4) MDP:将数据选择过程建模为状态(已选择的数据子集)、动作(选择下一个数据样本)和奖励(代理模型性能提升)的序列。
关键创新:论文的关键创新在于将数据选择问题转化为一个可解的MDP,并利用强化学习来学习最优的数据选择策略。与传统的基于启发式或预训练的方法不同,该方法能够根据微调任务的特点,自适应地选择数据,从而提高微调效率和性能。此外,使用代理模型作为奖励信号,避免了直接在完整模型上进行评估,大大降低了计算成本。
关键设计:论文使用一个较小的、计算成本较低的模型作为代理模型,用于快速评估数据子集的质量。奖励函数的设计至关重要,它需要能够准确反映数据子集对模型性能的影响。论文采用PPO算法训练智能体,并仔细调整了超参数,以确保训练的稳定性和收敛性。具体的数据选择策略由智能体学习得到,没有预先设定任何人工规则。
📊 实验亮点
实验结果表明,使用该方法选择的5%数据子集进行微调,在四个数据集上均能达到或超过使用完整数据集微调的性能,准确率最高提升了10.8个百分点,同时训练时间缩短了高达2倍。这些结果验证了基于强化学习的数据选择方法的有效性。
🎯 应用场景
该研究成果可广泛应用于自然语言处理领域,尤其是在资源受限的情况下,例如移动设备上的模型部署、低成本的语言模型微调等。通过智能地选择训练数据,可以显著降低训练成本,提高模型性能,加速大语言模型在各个领域的应用。
📄 摘要(原文)
Data selection for finetuning Large Language Models (LLMs) can be framed as a budget-constrained optimization problem: maximizing a model's downstream performance under a strict training data budget. Solving this problem is generally intractable, and existing approximate approaches are pretraining-oriented and transfer poorly to the fine-tuning setting. We reformulate this problem as a tractable Markov Decision Process (MDP) and train agents using various Reinforcement Learning (RL) methods to learn optimal data selection policies, guided by an efficient, proxy-model-based reward signal. Across four datasets, training on a $5\%$ subset selected by our approach matches or outperforms fine-tuning on the full dataset by up to $10.8$ accuracy points, while cutting wall-clock training time by up to $2 \times$, highlighting the promise of RL-guided data selection.