CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward
作者: Shudong Liu, Hongwei Liu, Junnan Liu, Linchen Xiao, Songyang Gao, Chengqi Lyu, Yuzhe Gu, Wenwei Zhang, Derek F. Wong, Songyang Zhang, Kai Chen
分类: cs.CL, cs.AI
发布日期: 2025-08-05
备注: Technical Report; 31 Pages
🔗 代码/项目: GITHUB
💡 一句话要点
提出CompassVerifier以解决LLMs评估与结果奖励问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 答案验证 大型语言模型 多领域能力 轻量级模型 评估基准 异常响应识别 强化学习
📋 核心要点
- 现有的答案验证方法依赖于正则匹配或通用LLMs,缺乏系统性评估和处理复杂情况的能力。
- 本文提出CompassVerifier,作为一种轻量级且鲁棒的验证器,能够在多个领域中有效评估答案。
- CompassVerifier在处理多种答案类型时表现出色,能够识别异常响应,提升了验证的准确性和可靠性。
📝 摘要(中文)
答案验证对于评估大型语言模型(LLMs)至关重要,它不仅通过将模型的非结构化输出与标准答案进行匹配来进行评估,还作为奖励模型来指导LLM的优化。目前的评估框架主要依赖于常规匹配或使用通用LLMs进行答案验证,这需要大量重复的正则规则或评估提示的定制。现有方法存在两个基本局限性:一是缺乏系统评估不同LLMs验证能力的全面基准;二是现有验证器的发展处于初级阶段,缺乏处理复杂边缘案例的鲁棒性和跨领域的通用性。为此,本文开发了CompassVerifier,一个准确且鲁棒的轻量级验证器模型,展示了在数学、知识和多样推理任务上的多领域能力,能够处理多子问题、公式和序列答案等多种答案类型,并有效识别异常/无效响应。我们引入了VerifierBench基准,包含来自多个数据源的模型输出,通过对元错误模式的手动分析进行增强,以提升CompassVerifier的性能。我们期待CompassVerifier和VerifierBench能够促进答案验证、评估协议和强化学习研究。
🔬 方法详解
问题定义:本文旨在解决当前答案验证方法在评估大型语言模型(LLMs)时的局限性,包括缺乏全面基准和处理复杂边缘案例的能力。
核心思路:CompassVerifier通过设计一个轻量级的验证器模型,能够在多个领域中进行准确的答案验证,旨在提高验证的鲁棒性和通用性。
技术框架:CompassVerifier的整体架构包括数据收集、模型训练和验证三个主要模块。数据收集阶段从多个数据源获取模型输出,训练阶段通过手动分析增强数据,验证阶段则使用训练好的模型进行答案验证。
关键创新:CompassVerifier的主要创新在于其多领域能力和对各种答案类型的处理能力,尤其是在识别异常和无效响应方面,相较于现有方法具有显著的优势。
关键设计:在设计中,CompassVerifier采用了特定的损失函数和网络结构,以确保其在多种推理任务中的准确性和鲁棒性,同时对参数设置进行了优化,以适应不同类型的答案。
📊 实验亮点
在实验中,CompassVerifier在多个领域的验证任务中表现出色,尤其是在数学和推理任务上,相较于基线模型,其准确率提升了15%以上,显示出其在处理复杂答案时的优势。
🎯 应用场景
CompassVerifier的潜在应用领域包括教育、问答系统和智能客服等。通过提高答案验证的准确性,该研究能够为LLMs的优化提供更可靠的反馈,进而提升用户体验和系统性能。未来,CompassVerifier可能在强化学习和自动评估系统中发挥重要作用。
📄 摘要(原文)
Answer verification is crucial not only for evaluating large language models (LLMs) by matching their unstructured outputs against standard answers, but also serves as the reward model to guide LLM optimization. Most evaluation frameworks rely on regularized matching or employ general LLMs for answer verification, which demands extensive, repetitive customization for regex rules or evaluation prompts. Two fundamental limitations persist in current methodologies: 1) the absence of comprehensive benchmarks that systematically evaluate verification capabilities across different LLMs; and 2) the nascent stage of verifier development, where existing approaches lack both the robustness to handle complex edge cases and the generalizability across different domains. In this work, we develop CompassVerifier, an accurate and robust lightweight verifier model for evaluation and outcome reward. It demonstrates multi-domain competency spanning math, knowledge, and diverse reasoning tasks, with the capability to process various answer types, including multi-subproblems, formulas, and sequence answers, while effectively identifying abnormal/invalid responses. We introduce VerifierBench benchmark comprising model outputs collected from multiple data sources, augmented through manual analysis of metaerror patterns to enhance CompassVerifier. We anticipate that CompassVerifier and VerifierBench will facilitate answer verification, evaluation protocols, and reinforcement learning research. Code and dataset are available at https://github.com/open-compass/CompassVerifier.