PRISM: A Unified Framework for Post-Training LLMs Without Verifiable Rewards

📄 arXiv: 2601.04700v1 📥 PDF

作者: Mukesh Ghimire, Aosong Feng, Liwen You, Youzhi Luo, Fang Liu, Xuan Zhu

分类: cs.CL

发布日期: 2026-01-08

备注: Preprint. Under Review


💡 一句话要点

PRISM:一种无需可验证奖励的LLM后训练统一框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 后训练 无监督学习 过程奖励模型 自我置信度 模型一致性 数学推理 代码生成

📋 核心要点

  1. 现有LLM后训练方法依赖人工标注或外部验证,成本高昂且难以获取高质量难题的解决方案。
  2. PRISM框架提出使用过程奖励模型(PRM)结合模型自身置信度,在无标签数据上进行有效训练。
  3. 实验表明,PRISM能稳定训练并提升测试性能,同时有效控制模型的内部置信度。

📝 摘要(中文)

目前的大语言模型(LLM)后训练技术依赖于昂贵的人工监督或外部验证器,以提升数学推理和代码生成等任务的性能。然而,随着LLM解决问题能力的提高,进一步的改进可能需要人类无法获得的高质量难题解决方案。因此,从无标签数据中学习变得越来越有吸引力。现有方法通过模型一致性提取学习信号,例如多数投票或将模型的内部置信度转化为奖励。虽然熵或自我确定性等内部一致性指标不需要人工干预,但正如本文所示,这些对于大规模和长期训练而言是不可靠的信号。为了解决不可靠性问题,我们提出了PRISM,一个统一的训练框架,它使用过程奖励模型(PRM)来指导学习,同时利用模型在没有真实标签时的内部置信度。我们表明,有效地将PRM与自我确定性相结合,可以实现稳定的训练和更好的测试性能,并控制模型的内部置信度。

🔬 方法详解

问题定义:现有LLM后训练方法依赖人工标注或外部验证,成本高昂。此外,随着模型能力的提升,获取高质量的难题解决方案变得更加困难,限制了模型进一步提升。模型内部一致性(如熵或自我确定性)虽然无需人工干预,但作为训练信号并不可靠,会导致训练不稳定和性能下降。

核心思路:PRISM的核心思路是利用过程奖励模型(Process Reward Model, PRM)来弥补模型内部置信度作为训练信号的不足。PRM旨在评估模型生成过程的质量,从而提供更可靠的奖励信号,指导模型学习。同时,结合模型自身的置信度,可以更好地平衡探索和利用,实现更有效的训练。

技术框架:PRISM框架包含以下主要模块:1) LLM:待训练的大语言模型。2) PRM:过程奖励模型,用于评估LLM生成过程的质量。3) 训练循环:LLM生成多个候选答案,PRM对每个答案的过程进行评估并给出奖励,同时LLM自身也给出置信度评分。将PRM奖励和LLM置信度结合,作为最终的训练信号,用于更新LLM的参数。

关键创新:PRISM的关键创新在于引入了过程奖励模型(PRM),并将其与模型的内部置信度相结合,形成了一种更可靠的训练信号。与仅依赖模型内部一致性的方法相比,PRISM能够更有效地指导模型学习,避免了训练不稳定和性能下降的问题。PRM的引入使得在无标签数据上进行有效的LLM后训练成为可能。

关键设计:PRM的具体实现方式未知,论文中可能未详细描述。关键在于如何设计PRM,使其能够准确评估生成过程的质量。可能的实现方式包括:1) 基于规则的评估:根据预定义的规则评估生成过程是否符合逻辑和规范。2) 基于模型的评估:训练一个专门的模型来评估生成过程的质量。3) 混合方法:结合规则和模型进行评估。此外,如何将PRM奖励和LLM置信度进行有效结合也是一个关键设计,可能涉及到加权平均、门控机制等技术。

📊 实验亮点

论文提出了PRISM框架,通过结合过程奖励模型(PRM)和模型自身置信度,在无标签数据上实现了有效的LLM后训练。实验结果表明,PRISM能够稳定训练并提升测试性能,同时有效控制模型的内部置信度。具体的性能提升数据和对比基线未知,需要在论文中查找。

🎯 应用场景

PRISM框架可应用于各种需要LLM进行推理和生成的任务,例如数学问题求解、代码生成、文本摘要等。它降低了对人工标注数据的依赖,使得在数据稀缺或难以获取高质量标注的场景下进行LLM后训练成为可能。该研究有助于推动LLM在更广泛领域的应用,并提高其解决复杂问题的能力。

📄 摘要(原文)

Current techniques for post-training Large Language Models (LLMs) rely either on costly human supervision or on external verifiers to boost performance on tasks such as mathematical reasoning and code generation. However, as LLMs improve their problem-solving, any further improvement will potentially require high-quality solutions to difficult problems that are not available to humans. As a result, learning from unlabeled data is becoming increasingly attractive in the research community. Existing methods extract learning signal from a model's consistency, either by majority voting or by converting the model's internal confidence into reward. Although internal consistency metric such as entropy or self-certainty require no human intervention, as we show in this work, these are unreliable signals for large-scale and long-term training. To address the unreliability, we propose PRISM, a unified training framework that uses a Process Reward Model (PRM) to guide learning alongside model's internal confidence in the absence of ground-truth labels. We show that effectively combining PRM with self-certainty can lead to both stable training and better test-time performance, and also keep the model's internal confidence in check.