Precision over Diversity: High-Precision Reward Generalizes to Robust Instruction Following

📄 arXiv: 2601.04954v1 📥 PDF

作者: Yirong Zeng, Yufei Liu, Xiao Ding, Yutai Hou, Yuxian Wang, Haonan Song, Wu Ning, Dandan Tu, Qixun Zhang, Bibo Cai, Yuxiang He, Ting Liu

分类: cs.LG, cs.AI

发布日期: 2026-01-08

备注: ACL under review 13 pages, 8 figures


💡 一句话要点

高精度奖励胜过多样性:提升指令跟随的鲁棒性与泛化能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 指令跟随 强化学习 奖励函数 数据优化 泛化能力

📋 核心要点

  1. 现有指令跟随方法依赖于硬约束和软约束的混合数据,但其泛化能力受限。
  2. 论文提出优先考虑奖励精度而非数据多样性的策略,以提升指令跟随模型的性能。
  3. 实验表明,该方法在多个基准测试中显著优于现有方法,并减少了训练时间。

📝 摘要(中文)

在指令跟随(IF)任务中,一个普遍的观点是,使用可验证的硬约束和不可验证的软约束的混合数据对于泛化到未见指令至关重要。本文通过系统的实验研究挑战了这一观点。与直觉相反,研究发现仅使用硬约束训练的模型始终优于使用混合数据集训练的模型。大量实验表明,奖励的精度而非约束的多样性是有效对齐的主要驱动因素。LLM判别器在检测错误响应方面召回率较低,导致严重的奖励利用,从而削弱了多样性的好处。此外,对注意力机制的分析表明,高精度奖励可以发展出可迁移的指令跟随元技能。受这些见解的启发,本文提出了一种简单而有效的数据中心优化策略,该策略优先考虑奖励精度。在五个基准测试中评估,该方法优于竞争基线13.4%,同时训练时间减少了58%,并在指令跟随之外保持了强大的泛化能力。研究结果提倡一种范式转变:从不加选择地追求数据多样性转向高精度奖励。

🔬 方法详解

问题定义:现有指令跟随模型的训练通常依赖于混合了硬约束(可验证)和软约束(不可验证)的数据集,认为多样性是泛化的关键。然而,这种方法容易受到软约束中低质量奖励的干扰,导致模型学习到次优策略,泛化能力不足。现有方法未能充分利用高精度奖励的潜力。

核心思路:论文的核心思路是,奖励的精度比多样性更重要。高精度的奖励能够引导模型学习到更准确的指令跟随策略,从而提升泛化能力。通过专注于高精度奖励,可以避免模型受到低质量奖励的误导,并学习到更鲁棒的指令跟随行为。

技术框架:该研究主要通过实验分析来验证核心思路,并提出了一种数据中心优化策略。具体来说,首先通过对比仅使用硬约束训练的模型和使用混合约束训练的模型的性能,来验证高精度奖励的重要性。然后,分析注意力机制,揭示高精度奖励如何帮助模型学习可迁移的元技能。最后,提出一种数据中心优化策略,该策略优先选择具有高精度奖励的数据进行训练。

关键创新:最重要的技术创新点在于,挑战了指令跟随领域中关于数据多样性的传统观念,强调了奖励精度的重要性。通过实验证明,高精度奖励能够显著提升模型的泛化能力和鲁棒性,并提出了一种简单有效的数据优化策略。

关键设计:论文的关键设计在于数据选择策略,即优先选择具有高精度奖励的数据进行训练。具体实现细节未知,但核心思想是利用某种机制(例如,人工审核或自动评估)来筛选出高质量的奖励信号,并优先使用这些数据来训练模型。此外,对注意力机制的分析也揭示了高精度奖励如何影响模型的学习过程。

📊 实验亮点

该研究在五个基准测试中取得了显著的性能提升,优于竞争基线13.4%,同时训练时间减少了58%。这表明,优先考虑奖励精度的数据优化策略能够有效地提升指令跟随模型的性能和效率。此外,该研究还发现,高精度奖励能够帮助模型学习可迁移的元技能,进一步提升了模型的泛化能力。

🎯 应用场景

该研究成果可应用于各种需要指令跟随的场景,例如机器人控制、对话系统、智能助手等。通过提升指令跟随模型的鲁棒性和泛化能力,可以使其更好地理解和执行用户的指令,从而提高用户体验和工作效率。此外,该研究强调奖励精度的重要性,为未来指令跟随模型的设计提供了新的思路。

📄 摘要(原文)

A central belief in scaling reinforcement learning with verifiable rewards for instruction following (IF) tasks is that, a diverse mixture of verifiable hard and unverifiable soft constraints is essential for generalizing to unseen instructions. In this work, we challenge this prevailing consensus through a systematic empirical investigation. Counter-intuitively, we find that models trained on hard-only constraints consistently outperform those trained on mixed datasets. Extensive experiments reveal that reward precision, rather than constraint diversity, is the primary driver of effective alignment. The LLM judge suffers from a low recall rate in detecting false response, which leads to severe reward hacking, thereby undermining the benefits of diversity. Furthermore, analysis of the attention mechanism reveals that high-precision rewards develop a transferable meta-skill for IF. Motivated by these insights, we propose a simple yet effective data-centric refinement strategy that prioritizes reward precision. Evaluated on five benchmarks, our approach outperforms competitive baselines by 13.4\% in performance while achieving a 58\% reduction in training time, maintaining strong generalization beyond instruction following. Our findings advocate for a paradigm shift: moving away from the indiscriminate pursuit of data diversity toward high-precision rewards.