Efficient RLVR Training via Weighted Mutual Information Data Selection
作者: Xinyu Zhou, Boyu Zhu, Haotian Zhang, Huiming Wang, Zhijiang Guo
分类: cs.LG, cs.CL
发布日期: 2026-03-02
备注: 15 Pages
💡 一句话要点
提出InSight,通过加权互信息数据选择提升RLVR训练效率。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 强化学习 数据选择 互信息 贝叶斯方法 语言模型对齐 RLVR 不确定性建模
📋 核心要点
- 现有RL数据选择策略过度依赖难度启发式,忽略了数据证据不足带来的认知不确定性。
- InSight基于加权互信息,通过贝叶斯潜在成功率建模,分解不确定性为难度和证据两部分。
- 实验表明InSight在多个基准测试中达到SOTA,显著提升训练效率,加速高达2.2倍。
📝 摘要(中文)
强化学习(RL)在提升大型语言模型的推理和对齐能力方面发挥着核心作用,但其效率关键取决于训练数据的选择。现有的在线选择策略主要依赖于基于难度的启发式方法,倾向于选择具有中等成功率的数据点,隐含地将难度等同于信息量,并忽略了有限证据带来的认知不确定性。我们引入了InSight,一种基于加权互信息目标的信息引导数据采样方法,用于强化学习训练。通过使用贝叶斯潜在成功率对数据结果进行建模,我们表明预期不确定性降低可以分解为互补的难度相关和证据相关成分,揭示了仅基于难度选择的根本局限性。利用这一观察结果,InSight构建了一个基于数据点成功均值置信度的稳定获取分数,而不是嘈杂的采样结果,并自然地扩展到强化学习与可验证奖励(RLVR)中常见的多次rollout设置。大量实验表明,InSight始终如一地实现了最先进的性能并提高了训练效率,包括在规划与数学基准测试中平均提升+1.41,在一般推理方面提升+1.01,以及高达~2.2倍的加速,且计算开销可忽略不计。
🔬 方法详解
问题定义:现有强化学习数据选择方法,特别是针对大型语言模型的RL对齐,主要依赖于基于难度的启发式方法。这些方法倾向于选择具有中间成功率的数据点,认为这些数据点最具信息量。然而,这种策略忽略了数据本身所包含的证据量,以及由于证据不足而产生的不确定性。这种简化可能导致次优的数据选择,从而降低训练效率。
核心思路:InSight的核心思路是基于加权互信息来选择训练数据。它将数据点的信息量与其预期不确定性降低联系起来,并通过贝叶斯方法对数据结果的潜在成功率进行建模。这种建模方式能够区分由于难度导致的不确定性和由于证据不足导致的不确定性,从而更准确地评估数据点的信息价值。通过最大化加权互信息,InSight能够选择既具有挑战性又具有足够证据支持的数据点,从而提高训练效率。
技术框架:InSight的整体框架包括以下几个主要步骤:1) 使用贝叶斯模型对每个数据点的潜在成功率进行建模;2) 基于建模的成功率,计算每个数据点的预期不确定性降低,该降低分解为难度相关和证据相关两部分;3) 使用计算出的不确定性降低作为数据点的获取分数;4) 根据获取分数选择数据点进行训练。该框架可以自然地扩展到多rollout设置,这在RLVR中很常见。
关键创新:InSight的关键创新在于其信息引导的数据选择方法,该方法基于加权互信息,并显式地考虑了数据证据对不确定性的影响。与现有方法不同,InSight能够区分难度和证据带来的不确定性,从而更准确地评估数据点的信息价值。此外,InSight使用成功率的均值置信度来构建稳定的获取分数,而不是使用嘈杂的采样结果,这提高了数据选择的稳定性。
关键设计:InSight的关键设计包括:1) 使用Beta分布作为潜在成功率的先验分布;2) 使用贝叶斯更新规则来更新成功率的后验分布;3) 将预期不确定性降低分解为难度相关和证据相关两部分,并使用这两个部分来计算数据点的获取分数;4) 使用一种稳定的获取分数,该分数基于成功率的均值置信度,而不是使用嘈杂的采样结果。
🖼️ 关键图片
📊 实验亮点
实验结果表明,InSight在多个基准测试中均取得了显著的性能提升。在规划与数学基准测试中,InSight平均提升了1.41。在一般推理方面,InSight提升了1.01。此外,InSight还实现了高达2.2倍的训练加速,且计算开销可忽略不计。这些结果表明InSight是一种高效且实用的数据选择方法。
🎯 应用场景
InSight可应用于各种需要强化学习进行模型对齐的场景,尤其是在大型语言模型的训练中。通过更高效的数据选择,可以显著降低训练成本,加速模型迭代,并提升模型在推理、数学和规划等任务上的性能。该方法在机器人控制、自动驾驶等领域也有潜在的应用价值。
📄 摘要(原文)
Reinforcement learning (RL) plays a central role in improving the reasoning and alignment of large language models, yet its efficiency critically depends on how training data are selected. Existing online selection strategies predominantly rely on difficulty-based heuristics, favouring datapoints with intermediate success rates, implicitly equating difficulty with informativeness and neglecting epistemic uncertainty arising from limited evidence. We introduce InSight, an INformation-guided data SamplInG metHod for RL Training, grounded in a weighted mutual information objective. By modeling data outcomes with Bayesian latent success rates, we show that expected uncertainty reduction decomposes into complementary difficulty- and evidence-dependent components, revealing a fundamental limitation of difficulty-only selection. Leveraging this observation, InSight constructs a stable acquisition score based on the mean belief of datapoints' success rather than noisy sampled outcomes, and naturally extends to multi-rollout settings common in reinforcement learning with verifiable rewards (RLVR). Extensive experiments demonstrate that InSight consistently achieves state-of-the-art performance and improves training efficiency, including a +1.41 average gain on Planning & Mathmatics benchmarks, +1.01 improvement on general reasoning, and up to ~2.2x acceleration, with negligible additional computational overhead.