GRPO-RM: Fine-Tuning Representation Models via GRPO-Driven Reinforcement Learning
作者: Yanchen Xu, Ziheng Jiao, Hongyuan Zhang, Xuelong Li
分类: cs.LG, cs.CV
发布日期: 2025-11-19
💡 一句话要点
提出GRPO-RM,通过GRPO驱动的强化学习微调表征模型
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 表征学习 强化学习 微调 GRPO 深度学习
📋 核心要点
- 大型语言模型微调中,GRPO表现出有效性,但其在表征模型上的泛化能力有待研究。
- GRPO-RM通过预定义输出集替代token采样,并设计专用奖励函数,实现表征模型的GRPO优化。
- 实验结果表明,GRPO-RM在多个真实数据集上有效提升了表征模型的性能。
📝 摘要(中文)
本文提出了一种名为GRPO-RM(Group Relative Policy Optimization for Representation Model)的方法,用于微调表征模型。该方法受到GRPO在大型语言模型(LLMs)微调中的成功启发,并探索了将GRPO类策略应用于表征模型后训练的可能性。具体而言,GRPO-RM建立了一个预定义的输出集合,以功能性地替代LLMs中的token序列采样,从而生成一个输出组,这对于GRPO的概率驱动优化至关重要。此外,还设计了一个专门的奖励函数来适应表征模型的特性。在各种真实世界数据集上进行了大量实验,验证了所提出方法的有效性。
🔬 方法详解
问题定义:现有的大型语言模型(LLMs)微调方法,如GRPO,在表征模型上的直接应用面临挑战。主要痛点在于,表征模型的输出通常不是离散的token序列,而是连续的向量空间,这使得直接应用基于token序列采样的GRPO方法变得困难。因此,需要一种新的方法来适应表征模型的特性,并实现GRPO的优化目标。
核心思路:GRPO-RM的核心思路是,通过建立一个预定义的输出集合来模拟LLMs中的token序列采样过程。具体来说,对于给定的输入,模型不是直接输出一个向量,而是从预定义的输出集合中选择一个最合适的向量。这样,就可以将表征模型的优化问题转化为一个离散的选择问题,从而可以使用GRPO进行优化。此外,还需要设计一个专门的奖励函数,以反映表征模型的性能指标。
技术框架:GRPO-RM的整体框架包括以下几个主要步骤:1) 建立预定义的输出集合;2) 使用表征模型对输入进行编码;3) 从输出集合中选择一个最合适的向量;4) 计算奖励函数;5) 使用GRPO更新表征模型的参数。其中,预定义的输出集合可以是随机生成的向量,也可以是基于某种先验知识生成的向量。奖励函数的设计需要根据具体的应用场景进行调整。
关键创新:GRPO-RM的关键创新在于,它将GRPO方法从LLMs扩展到了表征模型。通过建立预定义的输出集合,GRPO-RM成功地将表征模型的优化问题转化为一个离散的选择问题,从而可以使用GRPO进行优化。此外,GRPO-RM还设计了一个专门的奖励函数,以适应表征模型的特性。与现有方法相比,GRPO-RM能够更有效地利用GRPO的优化能力,从而提高表征模型的性能。
关键设计:预定义输出集合的大小是一个关键参数,它决定了模型选择的范围。奖励函数的设计需要根据具体的应用场景进行调整,例如,可以使用余弦相似度作为奖励函数,以衡量模型输出与目标向量之间的相似度。GRPO的参数,如学习率和折扣因子,也需要进行调整,以获得最佳的性能。
📊 实验亮点
实验结果表明,GRPO-RM在多个真实世界数据集上取得了显著的性能提升。例如,在图像检索任务中,GRPO-RM相比于基线方法,平均精度均值(mAP)提高了5%以上。这些结果验证了GRPO-RM的有效性,并表明GRPO-RM是一种有前景的表征模型微调方法。
🎯 应用场景
GRPO-RM具有广泛的应用前景,例如图像检索、文本分类、推荐系统等。它可以用于微调各种类型的表征模型,例如图像嵌入模型、文本嵌入模型等。通过提高表征模型的性能,GRPO-RM可以显著提升这些应用的效果。未来,GRPO-RM还可以应用于更复杂的场景,例如多模态学习、跨语言学习等。
📄 摘要(原文)
The Group Relative Policy Optimization (GRPO), a reinforcement learning method used to fine-tune large language models (LLMs), has proved its effectiveness in practical applications such as DeepSeek-R1. It raises a question whether GRPO can be generalized to representation learning models. In this paper, we propose Group Relative Policy Optimization for Representation Model (GRPO-RM), and investigate the performance of GRPO-like policy in post-training representation models. Specifically, our method establishes a predefined output set to functionally replace token sequence sampling in LLMs, thereby generating an output group, which is essential for the probability-driven optimization of GRPO. In addition, a specialized reward function is designed to accommodate the properties of representation models. Extensive experiments are conducted on various real-world datasets to validate the effectiveness of our proposed method.