Math-Shepherd: Verify and Reinforce LLMs Step-by-step without Human Annotations

📄 arXiv: 2312.08935v3 📥 PDF

作者: Peiyi Wang, Lei Li, Zhihong Shao, R. X. Xu, Damai Dai, Yifei Li, Deli Chen, Y. Wu, Zhifang Sui

分类: cs.AI, cs.CL, cs.LG

发布日期: 2023-12-14 (更新: 2024-02-19)

备注: Add Step-by-Step reinforcement learning results


💡 一句话要点

提出Math-Shepherd,无需人工标注即可验证并强化LLM的数学解题过程。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 数学问题求解 奖励模型 过程监督 强化学习 大型语言模型 自动标注 近端策略优化

📋 核心要点

  1. 现有数学问题求解的LLM依赖大量人工标注,成本高昂且难以扩展。
  2. Math-Shepherd通过自动构建过程监督数据,为解题步骤打分,无需人工标注。
  3. 实验表明,Math-Shepherd能有效验证和强化LLM,显著提升数学问题求解的准确率。

📝 摘要(中文)

本文提出了一种创新的面向过程的数学过程奖励模型Math-Shepherd,该模型为数学问题解决方案的每个步骤分配奖励分数。Math-Shepherd的训练通过自动构建的过程监督数据来实现,打破了现有工作对人工标注的严重依赖。我们探索了Math-Shepherd在两种场景下的有效性:1)验证:Math-Shepherd用于重新排序大型语言模型(LLM)生成的多个输出;2)强化学习:Math-Shepherd用于通过逐步近端策略优化(PPO)来强化LLM。借助Math-Shepherd,一系列开源LLM表现出卓越的性能。例如,使用Math-Shepherd的逐步PPO显著提高了Mistral-7B的准确性(GSM8K上从77.9%提高到84.1%,MATH上从28.6%提高到33.0%)。通过Math-Shepherd的验证,准确性可以进一步提高到GSM8K上的89.1%和MATH上的43.5%。我们认为,自动过程监督对于LLM的未来发展具有巨大的潜力。

🔬 方法详解

问题定义:当前大型语言模型在解决数学问题时,依赖于大量人工标注的解题过程数据进行训练,这导致了高昂的标注成本和扩展性问题。此外,仅仅关注最终答案而忽略中间步骤的正确性,使得模型难以学习到正确的推理过程,容易出现“幻觉”现象。因此,如何降低对人工标注的依赖,并有效监督和提升LLM的解题过程是本文要解决的核心问题。

核心思路:本文的核心思路是提出一种名为Math-Shepherd的数学过程奖励模型,该模型能够自动评估数学问题解题过程中的每一步的正确性,并给出相应的奖励分数。通过这种方式,可以实现对LLM解题过程的监督和指导,而无需人工标注。这样设计的目的是为了降低标注成本,提高模型的可扩展性,并使模型能够学习到更准确的推理过程。

技术框架:Math-Shepherd的整体框架包含两个主要应用场景:验证和强化学习。在验证场景中,Math-Shepherd用于对LLM生成的多个解题过程进行重新排序,选择奖励分数最高的解题过程作为最终答案。在强化学习场景中,Math-Shepherd作为奖励函数,用于通过逐步近端策略优化(PPO)来强化LLM,使其能够生成更准确的解题过程。整个流程包括数据自动生成、奖励模型训练、模型验证和强化学习四个阶段。

关键创新:该论文最重要的技术创新点在于提出了自动构建过程监督数据的方法,从而避免了对人工标注的依赖。具体来说,论文设计了一种算法,能够根据数学问题的已知条件和规则,自动生成解题过程中的中间步骤,并对这些步骤进行标注。这种自动标注的方法不仅降低了标注成本,还提高了标注的效率和一致性。

关键设计:Math-Shepherd的关键设计包括奖励函数的设计和PPO算法的实现。奖励函数的设计需要考虑到解题步骤的正确性、完整性和简洁性等因素。PPO算法的实现需要仔细调整参数,以保证训练的稳定性和收敛性。此外,论文还探索了不同的网络结构和训练策略,以提高Math-Shepherd的性能。

📊 实验亮点

实验结果表明,Math-Shepherd能够显著提升LLM在数学问题求解任务上的性能。例如,在GSM8K数据集上,使用Math-Shepherd进行逐步PPO后,Mistral-7B的准确率从77.9%提升到84.1%;在MATH数据集上,准确率从28.6%提升到33.0%。通过Math-Shepherd的验证,准确率可以进一步提高到GSM8K上的89.1%和MATH上的43.5%。这些结果表明,Math-Shepherd是一种有效的数学问题求解方法。

🎯 应用场景

Math-Shepherd具有广泛的应用前景,可用于提升各种LLM在数学、科学、工程等领域的解题能力。该研究成果可应用于在线教育平台,为学生提供个性化的学习辅导;也可应用于科研领域,辅助研究人员进行复杂的数学建模和计算。此外,该方法还可推广到其他需要过程监督的任务中,例如代码生成、文本摘要等。

📄 摘要(原文)

In this paper, we present an innovative process-oriented math process reward model called \textbf{Math-Shepherd}, which assigns a reward score to each step of math problem solutions. The training of Math-Shepherd is achieved using automatically constructed process-wise supervision data, breaking the bottleneck of heavy reliance on manual annotation in existing work. We explore the effectiveness of Math-Shepherd in two scenarios: 1) \textit{Verification}: Math-Shepherd is utilized for reranking multiple outputs generated by Large Language Models (LLMs); 2) \textit{Reinforcement Learning}: Math-Shepherd is employed to reinforce LLMs with step-by-step Proximal Policy Optimization (PPO). With Math-Shepherd, a series of open-source LLMs demonstrates exceptional performance. For instance, the step-by-step PPO with Math-Shepherd significantly improves the accuracy of Mistral-7B (77.9\%$\to$84.1\% on GSM8K and 28.6\%$\to$33.0\% on MATH). The accuracy can be further enhanced to 89.1\% and 43.5\% on GSM8K and MATH with the verification of Math-Shepherd, respectively. We believe that automatic process supervision holds significant potential for the future evolution of LLMs.