GAC: Stabilizing Asynchronous RL Training for LLMs via Gradient Alignment Control

📄 arXiv: 2603.01501v1 📥 PDF

作者: Haofeng Xu, Junwei Su, Yukun Tian, Lansong Diao, Zhengping Qian, Chuan Wu

分类: cs.LG, cs.AI

发布日期: 2026-03-02


💡 一句话要点

提出梯度对齐控制(GAC)方法,稳定LLM异步强化学习训练

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 异步强化学习 梯度对齐 大型语言模型 策略梯度 训练稳定性

📋 核心要点

  1. 异步强化学习虽然能提升训练吞吐量,但会引入训练不稳定性,导致策略梯度更新出现偏差。
  2. 论文提出梯度对齐控制(GAC)方法,通过梯度投影来调节异步RL进程,稳定训练过程。
  3. 实验证明GAC能恢复稳定的on-policy训练动态,即使在高陈旧性下也能与同步基线匹配。

📝 摘要(中文)

异步执行对于将强化学习(RL)扩展到现代大型模型工作负载至关重要,包括大型语言模型和AI智能体,但它会从根本上改变RL的优化行为。虽然先前关于异步RL的工作主要集中在训练吞吐量和分布校正上,但我们表明,简单地将异步应用于策略梯度更新会导致截然不同的训练动态,并导致严重的训练不稳定。通过系统的实证和理论分析,我们确定了这种不稳定性的一个关键特征:异步训练在连续策略梯度之间表现出持续的高余弦相似性,这与同步训练下观察到的近乎正交的更新形成对比。这种陈旧对齐的梯度效应会放大相关的更新,并增加超调和发散的风险。受此观察的启发,我们提出了一种梯度对齐控制(GAC)方法,这是一种简单的动态感知稳定方法,它通过梯度投影来调节沿陈旧对齐方向的异步RL进程。我们建立了有界陈旧性下的收敛保证,并通过实验证明,即使在高陈旧性下,GAC也能恢复稳定的、on-policy的训练动态,并与同步基线相匹配。

🔬 方法详解

问题定义:异步强化学习在大型语言模型等场景中至关重要,但直接应用异步策略梯度更新会导致训练不稳定。现有方法主要关注吞吐量和分布校正,忽略了异步带来的梯度对齐问题,导致训练发散。

核心思路:论文的核心思路是观察到异步训练中连续策略梯度之间存在持续的高余弦相似性(陈旧对齐梯度效应),这会放大相关更新并导致训练不稳定。因此,通过控制梯度对齐,可以稳定异步训练过程。

技术框架:GAC方法的核心在于梯度投影。在异步更新策略梯度时,首先计算当前梯度与历史梯度的余弦相似度。然后,将当前梯度投影到与历史梯度近似正交的方向上,从而减少陈旧对齐梯度效应的影响。整体流程包括:从环境中采样数据,计算梯度,进行梯度对齐控制,更新策略。

关键创新:关键创新在于发现了异步训练中陈旧对齐梯度效应,并提出了相应的梯度对齐控制方法。与现有方法不同,GAC直接针对异步训练带来的梯度偏差进行修正,而非仅仅关注吞吐量或分布校正。

关键设计:GAC的关键设计在于梯度投影的计算方式。具体来说,使用余弦相似度作为对齐程度的度量,并设置一个阈值来控制投影的强度。梯度投影的具体公式为:g_projected = g - alpha * cos(g, g_old) * g_old,其中g是当前梯度,g_old是历史梯度,alpha是控制投影强度的超参数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,GAC方法能够有效稳定异步RL训练过程,即使在高陈旧性下也能与同步基线相匹配。具体来说,GAC在多个benchmark任务上都取得了与同步训练相当甚至更好的性能,验证了其有效性和鲁棒性。性能提升幅度未知,需要查阅原文。

🎯 应用场景

该研究成果可应用于大规模语言模型的强化学习训练,例如指令微调、奖励模型优化等。通过稳定异步训练过程,可以加速模型迭代,提升模型性能,并降低训练成本。此外,该方法也可推广到其他需要异步RL的AI智能体训练场景。

📄 摘要(原文)

Asynchronous execution is essential for scaling reinforcement learning (RL) to modern large model workloads, including large language models and AI agents, but it can fundamentally alter RL optimization behavior. While prior work on asynchronous RL focuses on training throughput and distributional correction, we show that naively applying asynchrony to policy-gradient updates can induce qualitatively different training dynamics and lead to severe training instability. Through systematic empirical and theoretical analysis, we identify a key signature of this instability: asynchronous training exhibits persistently high cosine similarity between consecutive policy gradients, in contrast to the near-orthogonal updates observed under synchronized training. This stale-aligned gradient effect amplifies correlated updates and increases the risk of overshooting and divergence. Motivated by this observation, we propose GRADIENT ALIGNMENT CONTROL(GAC), a simple dynamics-aware stabilization method that regulates asynchronous RL progress along stale-aligned directions via gradient projection. We establish convergence guarantees under bounded staleness and demonstrate empirically that GAC recovers stable, on-policy training dynamics and matches synchronized baselines even at high staleness.