IF-RewardBench: Benchmarking Judge Models for Instruction-Following Evaluation

作者: Bosi Wen, Yilin Niu, Cunxiang Wang, Xiaoying Ling, Ying Zhang, Pei Ke, Hongning Wang, Minlie Huang

分类: cs.CL

发布日期: 2026-03-05

备注: 27 pages, 7 figures

🔗 代码/项目: GITHUB

💡 一句话要点

提出IF-RewardBench，用于全面评估指令跟随评估中判别模型的性能。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 指令跟随 判别模型 元评估基准 大型语言模型 模型对齐

📋 核心要点

现有指令跟随评估基准数据覆盖不足，且成对评估方式与模型优化目标不一致，导致判别模型可靠性评估不足。
IF-RewardBench构建了包含指令和约束类型的综合性元评估基准，并为每个指令构建偏好图，支持列表式评估。
实验表明，现有判别模型存在缺陷，且IF-RewardBench与下游任务性能的相关性优于现有基准。

📝 摘要（中文）

指令跟随是大型语言模型（LLMs）的一项基础能力，其改进依赖于判别模型的可扩展和准确的反馈。然而，由于现有元评估基准的数据覆盖不足以及与模型优化场景不符的过度简化的成对评估范式等缺陷，当前判别模型在指令跟随方面的可靠性仍未得到充分探索。为此，我们提出了IF-RewardBench，这是一个全面的指令跟随元评估基准，涵盖了各种指令和约束类型。对于每个指令，我们构建了一个偏好图，其中包含多个响应之间基于指令跟随质量的所有成对偏好。这种设计支持列表式评估范式，可以评估判别模型对多个响应进行排序的能力，这对于指导模型对齐至关重要。在IF-RewardBench上进行的大量实验表明，当前判别模型存在重大缺陷，并证明与现有基准相比，我们的基准与下游任务性能实现了更强的正相关。

🔬 方法详解

问题定义：论文旨在解决现有指令跟随评估基准的不足，这些基准无法充分评估判别模型（judge models）的可靠性。现有基准存在数据覆盖范围有限、评估范式过于简化（通常是成对比较），以及与模型实际优化场景不符等问题。这些问题导致判别模型提供的反馈质量不高，进而影响了大型语言模型指令跟随能力的提升。

核心思路：论文的核心思路是构建一个更全面、更贴近实际应用场景的元评估基准，即IF-RewardBench。该基准通过扩展数据覆盖范围，引入更多样化的指令和约束类型，并采用列表式评估范式，从而更准确地评估判别模型对多个响应进行排序的能力。这种设计旨在更好地指导模型对齐，提升指令跟随性能。

技术框架：IF-RewardBench的技术框架主要包含以下几个部分：1) 数据收集与构建：收集多样化的指令和约束类型，并生成多个对应的响应。2) 偏好图构建：对于每个指令，基于指令跟随质量构建一个偏好图，该图包含所有响应之间的成对偏好关系。3) 评估指标设计：设计适用于列表式评估的指标，用于评估判别模型对多个响应进行排序的能力。4) 实验与分析：在IF-RewardBench上对现有判别模型进行评估，并分析其性能表现。

关键创新：论文的关键创新在于提出了IF-RewardBench，这是一个更全面、更贴近实际应用场景的指令跟随元评估基准。与现有基准相比，IF-RewardBench具有以下优势：1) 更广泛的数据覆盖范围，包含更多样化的指令和约束类型。2) 采用列表式评估范式，更准确地评估判别模型对多个响应进行排序的能力。3) 与下游任务性能具有更强的正相关性，能够更好地指导模型对齐。

关键设计：论文的关键设计包括：1) 指令和约束类型的选择：选择具有代表性的指令和约束类型，以覆盖不同的应用场景。2) 偏好图的构建方法：采用人工标注或自动评估等方法，构建准确的偏好图。3) 评估指标的设计：设计能够有效评估判别模型排序能力的指标，例如NDCG、MAP等。4) 实验设置：设计合理的实验设置，以评估不同判别模型在IF-RewardBench上的性能。

🖼️ 关键图片

📊 实验亮点

实验结果表明，现有判别模型在IF-RewardBench上表现出显著的缺陷，表明现有基准可能无法充分评估其性能。同时，IF-RewardBench与下游任务性能的相关性明显高于现有基准，这意味着使用IF-RewardBench评估判别模型能够更好地预测其在实际应用中的表现。

🎯 应用场景

IF-RewardBench可应用于大型语言模型的指令跟随能力评估与提升，通过更准确的判别模型反馈，指导模型对齐，提高模型在各种任务中的性能。该基准还可用于开发更有效的判别模型，并促进指令跟随领域的研究进展，具有广泛的应用前景和实际价值。

📄 摘要（原文）

Instruction-following is a foundational capability of large language models (LLMs), with its improvement hinging on scalable and accurate feedback from judge models. However, the reliability of current judge models in instruction-following remains underexplored due to several deficiencies of existing meta-evaluation benchmarks, such as their insufficient data coverage and oversimplified pairwise evaluation paradigms that misalign with model optimization scenarios. To this end, we propose IF-RewardBench, a comprehensive meta-evaluation benchmark for instruction-following that covers diverse instruction and constraint types. For each instruction, we construct a preference graph containing all pairwise preferences among multiple responses based on instruction-following quality. This design enables a listwise evaluation paradigm that assesses the capabilities of judge models to rank multiple responses, which is essential in guiding model alignment. Extensive experiments on IF-RewardBench reveal significant deficiencies in current judge models and demonstrate that our benchmark achieves a stronger positive correlation with downstream task performance compared to existing benchmarks. Our codes and data are available at https://github.com/thu-coai/IF-RewardBench.

IF-RewardBench: Benchmarking Judge Models for Instruction-Following Evaluation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理