Random Is Hard to Beat: Active Selection in online DPO with Modern LLMs

📄 arXiv: 2604.02766 📥 PDF

作者: Giyeong Oh, Junghyun Lee, Jaehyun Park, Youngjae Yu, Wonho Bae, Junhyug Noh

分类: cs.LG, cs.AI

发布日期: 2026-04-06


💡 一句话要点

在线DPO中,随机采样已难以超越:现代LLM主动选择的局限性

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 直接偏好优化 主动偏好学习 随机抽样 在线学习

📋 核心要点

  1. 现有主动偏好学习(APL)方法在现代LLM的在线DPO中,提升效果不明显,面临着收益递减的挑战。
  2. 论文核心思想是对比APL与随机抽样在DPO中的表现,揭示预训练先验对数据选择策略的影响。
  3. 实验结果表明,APL相对于随机抽样,在胜率提升方面收益甚微,且可能导致通用能力下降。

📝 摘要(中文)

现代大型语言模型(LLM)从网络规模的预训练中继承了强大的先验知识,这限制了后训练数据选择策略的提升空间。主动偏好学习(APL)旨在优化在线直接偏好优化(DPO)中的查询效率,但on-policy候选池的丰富性使得简单的随机抽样成为一个出人意料的强大基线。我们评估了基于不确定性的APL与随机抽样在无害性、有用性和指令遵循设置下的性能,使用了奖励模型和LLM-as-a-judge代理。我们发现,与随机抽样相比,APL在代理胜率方面的改进微乎其微。重要的是,我们观察到一种分离现象,即胜率提高,但由标准基准衡量的通用能力却下降。APL未能显著优于随机抽样来缓解这种能力崩溃或降低方差。我们的研究结果表明,在强大的预训练先验的背景下,主动选择的计算开销难以证明其合理性,因为简单的随机样本提供了“廉价的多样性”。代码已公开。

🔬 方法详解

问题定义:论文旨在研究在现代大型语言模型(LLM)的在线直接偏好优化(DPO)过程中,主动偏好学习(APL)方法是否能够有效地提升模型性能。现有方法,即APL,试图通过选择信息量最大的样本来提高训练效率,但其效果在具有强大预训练先验的LLM上并不显著,甚至可能不如随机抽样。

核心思路:论文的核心思路是对比基于不确定性的APL与简单的随机抽样方法在在线DPO中的表现。作者认为,由于现代LLM已经通过大规模预训练获得了强大的先验知识,因此on-policy候选池中已经包含了足够的多样性,使得主动选择策略的优势难以体现。随机抽样提供了“廉价的多样性”,可能已经足够有效。

技术框架:论文的整体框架包括以下几个步骤:1) 使用在线DPO方法训练LLM;2) 在每个训练迭代中,使用APL或随机抽样从候选池中选择样本;3) 使用选定的样本更新模型;4) 使用奖励模型或LLM-as-a-judge代理评估模型性能,包括胜率和通用能力。评估指标包括无害性、有用性和指令遵循。

关键创新:论文的关键创新在于揭示了在具有强大预训练先验的LLM上,主动选择策略的局限性。论文表明,在某些情况下,简单的随机抽样可能比复杂的APL方法更有效,或者至少在效率和性能之间取得了更好的平衡。这种发现挑战了传统的APL方法在现代LLM训练中的应用。

关键设计:论文的关键设计包括:1) 使用基于不确定性的APL方法,选择模型最不确定的样本进行训练;2) 使用奖励模型和LLM-as-a-judge代理作为评估指标,以更全面地评估模型性能;3) 在不同的设置(无害性、有用性和指令遵循)下进行实验,以验证结论的普遍性。具体的参数设置和网络结构等技术细节未在摘要中详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,与随机抽样相比,基于不确定性的APL在代理胜率方面的改进微乎其微。更重要的是,实验观察到一种分离现象,即胜率提高的同时,由标准基准衡量的通用能力却下降。APL未能显著优于随机抽样来缓解这种能力崩溃或降低方差,这表明在强预训练先验下,主动选择的计算开销可能难以justify。

🎯 应用场景

该研究结果对大型语言模型的训练和优化具有重要意义。它表明,在预训练模型已经具备强大能力的情况下,应谨慎评估主动选择策略的有效性,并考虑使用更简单、更高效的随机抽样方法。该研究可以指导研究人员和工程师在LLM的微调和对齐过程中,更加明智地选择数据选择策略,从而降低计算成本,并避免不必要的性能损失。

📄 摘要(原文)

Modern LLMs inherit strong priors from web-scale pretraining, which can limit the headroom of post-training data-selection strategies. While Active Preference Learning (APL) seeks to optimize query efficiency in online Direct Preference Optimization (DPO), the inherent richness of on-policy candidate pools often renders simple Random sampling a surprisingly formidable baseline. We evaluate uncertainty-based APL against Random across harmlessness, helpfulness, and instruction-following settings, utilizing both reward models and LLM-as-a-judge proxies. We find that APL yields negligible improvements in proxy win-rates compared to Random. Crucially, we observe a dissociation where win-rate improves even as general capability -- measured by standard benchmarks -- degrades. APL fails to mitigate this capability collapse or reduce variance significantly better than random sampling. Our findings suggest that in the regime of strong pre-trained priors, the computational overhead of active selection is difficult to justify against the ``cheap diversity'' provided by simple random samples. Our code is available atthis https URL.