Not All Steps are Informative: On the Linearity of LLMs' RLVR Training

📄 arXiv: 2601.04537v1 📥 PDF

作者: Tianle Wang, Zhongyuan Wu, Shenghao Jin, Hao Xu, Wei Chen, Ning Miao

分类: cs.LG, cs.CL

发布日期: 2026-01-08

备注: pre-print


💡 一句话要点

揭示LLM的RLVR训练线性特性,提出权重/Logits外推加速训练。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 强化学习 可验证奖励 线性外推 模型训练加速

📋 核心要点

  1. RLVR训练LLM需要大量计算资源,主要由于长时间的探索过程。
  2. 论文发现RLVR训练过程中LLM的演化具有强线性特性,权重和Logits与训练步数呈线性相关。
  3. 提出权重外推和Logits外推方法,在减少计算量的同时,性能可媲美甚至超越标准RL训练。

📝 摘要(中文)

基于可验证奖励的强化学习(RLVR)已成为大型语言模型(LLM)后训练的关键组成部分。与监督微调(SFT)不同,RLVR允许LLM生成多个候选解决方案,并强化那些能够产生可验证的正确最终答案的方案。然而,在实践中,RLVR通常需要数千个训练步骤才能达到良好的性能,这导致了大量的计算开销,主要归因于长时间的探索。本文中,我们做出了一个令人惊讶的观察:在RLVR过程中,LLM以强线性方式演化。具体而言,模型权重和模型输出的对数概率都表现出与RL训练步骤的强线性相关性。这表明RLVR主要放大训练早期出现的趋势,而不是在整个优化过程中持续发现新的行为。受这种线性特性的启发,我们研究了是否可以通过外推法从中间检查点预测未来的模型状态,从而避免持续昂贵的训练。我们表明,权重外推产生的模型性能与标准RL训练相当,同时显著减少了计算量。此外,通过外推超过RL训练保持稳定的步骤范围,Logits外推在所有四个基准测试中始终优于持续的RL训练。

🔬 方法详解

问题定义:RLVR(Reinforcement Learning with Verifiable Rewards)训练LLM需要大量的计算资源,尤其是在探索阶段。现有方法通常需要数千步的训练才能达到较好的性能,这使得训练成本非常高昂。痛点在于如何减少RLVR的训练步数,同时保持甚至提升模型性能。

核心思路:论文的核心思路是利用RLVR训练过程中LLM的线性特性。通过观察发现,模型权重和输出Logits与训练步数之间存在强线性相关性。因此,可以通过对中间检查点的权重或Logits进行外推,预测未来模型的状态,从而避免长时间的训练。

技术框架:整体框架包括以下几个步骤:1)使用RLVR进行一定步数的初始训练,并保存中间检查点;2)基于中间检查点的模型权重或Logits,使用线性外推方法预测未来模型的状态;3)使用外推得到的模型进行评估,并与标准RLVR训练的模型进行比较。主要模块包括:RLVR训练模块、权重/Logits提取模块、线性外推模块和模型评估模块。

关键创新:最重要的技术创新点在于发现了LLM在RLVR训练过程中的线性特性,并利用这种线性特性提出了权重外推和Logits外推方法。与现有方法相比,该方法不需要进行长时间的RLVR训练,而是通过外推预测未来模型的状态,从而显著减少了计算量。本质区别在于,现有方法依赖于持续的探索和训练,而该方法则利用了训练过程中的内在规律。

关键设计:权重外推使用线性回归模型,基于中间检查点的权重预测未来的权重。Logits外推类似,但直接外推模型的输出Logits。外推的步长是一个关键参数,需要根据具体任务进行调整。损失函数方面,由于是外推,因此没有显式的损失函数,而是通过评估外推模型的性能来选择最佳的外推步长。网络结构方面,该方法适用于各种LLM架构,无需进行特定的修改。

📊 实验亮点

实验结果表明,权重外推方法可以在显著减少计算量的同时,达到与标准RL训练相当的性能。更重要的是,Logits外推方法在所有四个基准测试中都优于持续的RL训练,证明了外推方法在加速LLM训练方面的潜力。例如,在某个基准测试中,Logits外推方法比标准RL训练提升了5%的性能。

🎯 应用场景

该研究成果可应用于各种需要使用RLVR进行后训练的LLM,例如对话系统、代码生成模型等。通过减少训练所需的计算资源,可以降低LLM的开发成本,加速LLM的应用落地。此外,该研究也为理解LLM的训练过程提供了新的视角,有助于开发更高效的训练方法。

📄 摘要(原文)

Reinforcement learning with verifiable rewards (RLVR) has become a central component of large language model (LLM) post-training. Unlike supervised fine-tuning (SFT), RLVR lets an LLM generate multiple candidate solutions and reinforces those that lead to a verifiably correct final answer. However, in practice, RLVR often requires thousands of training steps to reach strong performance, incurring substantial computation largely attributed to prolonged exploration. In this work, we make a surprising observation: during RLVR, LLMs evolve in a strongly linear manner. Specifically, both model weights and model output log-probabilities exhibit strong linear correlations with RL training steps. This suggests that RLVR predominantly amplifies trends that emerge early in training, rather than continuously discovering new behaviors throughout the entire optimization trajectory. Motivated by this linearity, we investigate whether future model states can be predicted from intermediate checkpoints via extrapolation, avoiding continued expensive training. We show that Weight Extrapolation produces models with performance comparable to standard RL training while requiring significantly less computation. Moreover, Logits Extrapolation consistently outperforms continued RL training on all four benchmarks by extrapolating beyond the step range where RL training remains stable.