SIMPLEMIX: Frustratingly Simple Mixing of Off- and On-policy Data in Language Model Preference Learning

📄 arXiv: 2505.02363v1 📥 PDF

作者: Tianjian Li, Daniel Khashabi

分类: cs.CL

发布日期: 2025-05-05

备注: To appear in ICML 2025


💡 一句话要点

提出SIMPLEMIX以解决语言模型偏好学习中的数据混合问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 语言模型 偏好学习 数据混合 自然语言处理 机器学习 人机交互 推荐系统

📋 核心要点

  1. 现有方法在偏好学习中对基于策略和非策略数据的有效性缺乏系统性探索,导致性能不稳定。
  2. SIMPLEMIX通过简单混合基于策略和非策略的数据,充分利用两者的互补优势,提升偏好学习效果。
  3. 实验证明,SIMPLEMIX在多个任务上显著提升了模型性能,平均提升幅度达到6.03%,超越了复杂的现有方法。

📝 摘要(中文)

对齐语言模型与人类偏好依赖于成对偏好数据集。尽管一些研究表明,基于策略的数据在偏好学习中表现优于非策略数据,但也有研究指出这种优势可能依赖于具体任务。本文展示了基于策略和非策略数据在偏好优化中的互补优势,提出SIMPLEMIX方法,通过简单混合这两种数据源来结合其优势。实验证明,SIMPLEMIX在多种任务和基准测试中显著提升了语言模型的对齐效果,尤其在Alpaca Eval 2.0上平均提升了6.03%。

🔬 方法详解

问题定义:本文旨在解决语言模型偏好学习中基于策略与非策略数据的有效结合问题。现有方法往往只关注单一数据源,导致模型性能受限。

核心思路:SIMPLEMIX的核心思路是通过简单混合这两种数据源,利用基于策略数据在推理任务中的优势和非策略数据在开放性任务中的优势,从而实现更好的偏好优化。

技术框架:SIMPLEMIX的整体架构包括数据收集、数据混合、模型训练和评估四个主要模块。首先收集基于策略和非策略的数据,然后将其混合,接着进行模型训练,最后通过标准基准测试评估模型性能。

关键创新:SIMPLEMIX的主要创新在于其简单而有效的数据混合策略,相较于以往复杂的组合方法(如HyPO和DPO-Mix-P),其实现更为直接且效果显著。

关键设计:在设计上,SIMPLEMIX采用了特定的损失函数以平衡两种数据源的影响,并优化了网络结构以适应混合数据的特性。

📊 实验亮点

实验结果显示,SIMPLEMIX在Alpaca Eval 2.0上相比于基于策略的DPO和非策略的DPO平均提升了6.03%。此外,相较于复杂的现有方法,如HyPO和DPO-Mix-P,SIMPLEMIX平均提升了3.05%,显示出其优越的性能。

🎯 应用场景

该研究的潜在应用领域包括自然语言处理中的人机交互、推荐系统以及内容生成等。通过提升语言模型的对齐能力,SIMPLEMIX能够更好地满足用户的个性化需求,推动智能助手和创作工具的发展,具有重要的实际价值和未来影响。

📄 摘要(原文)

Aligning language models with human preferences relies on pairwise preference datasets. While some studies suggest that on-policy data consistently outperforms off -policy data for preference learning, others indicate that the advantages of on-policy data may be task-dependent, highlighting the need for a systematic exploration of their interplay. In this work, we show that on-policy and off-policy data offer complementary strengths in preference optimization: on-policy data is particularly effective for reasoning tasks like math and coding, while off-policy data performs better on open-ended tasks such as creative writing and making personal recommendations. Guided by these findings, we introduce SIMPLEMIX, an approach to combine the complementary strengths of on-policy and off-policy preference learning by simply mixing these two data sources. Our empirical results across diverse tasks and benchmarks demonstrate that SIMPLEMIX substantially improves language model alignment. Specifically, SIMPLEMIX improves upon on-policy DPO and off-policy DPO by an average of 6.03% on Alpaca Eval 2.0. Moreover, it outperforms prior approaches that are much more complex in combining on- and off-policy data, such as HyPO and DPO-Mix-P, by an average of 3.05%.