Random Is Hard to Beat: Active Selection in online DPO with Modern LLMs

作者: Giyeong Oh, Junghyun Lee, Jaehyun Park, Youngjae Yu, Wonho Bae, Junhyug Noh

分类: cs.LG, cs.AI

发布日期: 2026-04-06

💡 一句话要点

在线DPO中，随机采样已难以超越：现代LLM主动选择的局限性

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 直接偏好优化 主动偏好学习 随机抽样 在线学习

📋 核心要点

现有主动偏好学习（APL）方法在现代LLM的在线DPO中，提升效果不明显，面临着收益递减的挑战。
论文核心思想是对比APL与随机抽样在DPO中的表现，揭示预训练先验对数据选择策略的影响。
实验结果表明，APL相对于随机抽样，在胜率提升方面收益甚微，且可能导致通用能力下降。

📝 摘要（中文）

现代大型语言模型（LLM）从网络规模的预训练中继承了强大的先验知识，这限制了后训练数据选择策略的提升空间。主动偏好学习（APL）旨在优化在线直接偏好优化（DPO）中的查询效率，但on-policy候选池的丰富性使得简单的随机抽样成为一个出人意料的强大基线。我们评估了基于不确定性的APL与随机抽样在无害性、有用性和指令遵循设置下的性能，使用了奖励模型和LLM-as-a-judge代理。我们发现，与随机抽样相比，APL在代理胜率方面的改进微乎其微。重要的是，我们观察到一种分离现象，即胜率提高，但由标准基准衡量的通用能力却下降。APL未能显著优于随机抽样来缓解这种能力崩溃或降低方差。我们的研究结果表明，在强大的预训练先验的背景下，主动选择的计算开销难以证明其合理性，因为简单的随机样本提供了“廉价的多样性”。代码已公开。

🔬 方法详解

问题定义：论文旨在研究在现代大型语言模型（LLM）的在线直接偏好优化（DPO）过程中，主动偏好学习（APL）方法是否能够有效地提升模型性能。现有方法，即APL，试图通过选择信息量最大的样本来提高训练效率，但其效果在具有强大预训练先验的LLM上并不显著，甚至可能不如随机抽样。

核心思路：论文的核心思路是对比基于不确定性的APL与简单的随机抽样方法在在线DPO中的表现。作者认为，由于现代LLM已经通过大规模预训练获得了强大的先验知识，因此on-policy候选池中已经包含了足够的多样性，使得主动选择策略的优势难以体现。随机抽样提供了“廉价的多样性”，可能已经足够有效。

技术框架：论文的整体框架包括以下几个步骤：1) 使用在线DPO方法训练LLM；2) 在每个训练迭代中，使用APL或随机抽样从候选池中选择样本；3) 使用选定的样本更新模型；4) 使用奖励模型或LLM-as-a-judge代理评估模型性能，包括胜率和通用能力。评估指标包括无害性、有用性和指令遵循。

关键创新：论文的关键创新在于揭示了在具有强大预训练先验的LLM上，主动选择策略的局限性。论文表明，在某些情况下，简单的随机抽样可能比复杂的APL方法更有效，或者至少在效率和性能之间取得了更好的平衡。这种发现挑战了传统的APL方法在现代LLM训练中的应用。

关键设计：论文的关键设计包括：1) 使用基于不确定性的APL方法，选择模型最不确定的样本进行训练；2) 使用奖励模型和LLM-as-a-judge代理作为评估指标，以更全面地评估模型性能；3) 在不同的设置（无害性、有用性和指令遵循）下进行实验，以验证结论的普遍性。具体的参数设置和网络结构等技术细节未在摘要中详细说明，属于未知信息。

🖼️ 关键图片

📊 实验亮点

实验结果表明，与随机抽样相比，基于不确定性的APL在代理胜率方面的改进微乎其微。更重要的是，实验观察到一种分离现象，即胜率提高的同时，由标准基准衡量的通用能力却下降。APL未能显著优于随机抽样来缓解这种能力崩溃或降低方差，这表明在强预训练先验下，主动选择的计算开销可能难以justify。

🎯 应用场景

该研究结果对大型语言模型的训练和优化具有重要意义。它表明，在预训练模型已经具备强大能力的情况下，应谨慎评估主动选择策略的有效性，并考虑使用更简单、更高效的随机抽样方法。该研究可以指导研究人员和工程师在LLM的微调和对齐过程中，更加明智地选择数据选择策略，从而降低计算成本，并避免不必要的性能损失。

📄 摘要（原文）

Modern LLMs inherit strong priors from web-scale pretraining, which can limit the headroom of post-training data-selection strategies. While Active Preference Learning (APL) seeks to optimize query efficiency in online Direct Preference Optimization (DPO), the inherent richness of on-policy candidate pools often renders simple Random sampling a surprisingly formidable baseline. We evaluate uncertainty-based APL against Random across harmlessness, helpfulness, and instruction-following settings, utilizing both reward models and LLM-as-a-judge proxies. We find that APL yields negligible improvements in proxy win-rates compared to Random. Crucially, we observe a dissociation where win-rate improves even as general capability -- measured by standard benchmarks -- degrades. APL fails to mitigate this capability collapse or reduce variance significantly better than random sampling. Our findings suggest that in the regime of strong pre-trained priors, the computational overhead of active selection is difficult to justify against the ``cheap diversity'' provided by simple random samples. Our code is available atthis https URL.

Random Is Hard to Beat: Active Selection in online DPO with Modern LLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理