Adam Converges Without Any Modification On Update Rules

📄 arXiv: 2603.02092v1 📥 PDF

作者: Yushun Zhang, Bingran Li, Congliang Chen, Zhi-Quan Luo, Ruoyu Sun

分类: cs.LG, math.OC

发布日期: 2026-03-02

备注: 66 pages


💡 一句话要点

证明Adam在适当超参数下收敛,揭示其收敛-发散相变现象

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: Adam优化器 收敛性分析 超参数调整 相变现象 大型语言模型 批量大小 深度学习 优化算法

📋 核心要点

  1. 现有研究表明Adam可能发散,对其在大型模型训练中的应用提出质疑。
  2. 论文证明,在问题相关的超参数下,Adam可以收敛,揭示了其收敛-发散相变现象。
  3. 研究表明临界边界与批量大小相关,并为超参数调整提供了实用建议,经验证可提升LLM训练性能。

📝 摘要(中文)

Adam是训练神经网络(包括大型语言模型LLM)的默认算法。然而,Reddi等人的研究表明Adam可能发散,引发了对其在AI模型训练中应用的担忧。我们发现发散示例与实践之间存在关键不匹配:Reddi等人在选择Adam的超参数(β₁, β₂)之后才选择问题;而实际应用通常先确定问题,然后调整(β₁, β₂)。本文证明了Adam在适当的、问题相关的超参数下可以收敛。首先,我们证明当β₂较大且β₁ < √β₂时,Adam收敛。其次,当β₂较小时,我们指出了(β₁, β₂)组合的一个区域,其中Adam可能发散到无穷大。我们的结果表明,改变(β₁, β₂)组合时,Adam会发生从发散到收敛的相变。据我们所知,这是文献中首次报道的(β₁, β₂)二维平面上的相变,为Adam优化器提供了严格的理论保证。我们进一步指出,临界边界(β₁, β₂)是问题相关的,特别是依赖于批量大小。这为如何调整β₁和β₂提供了建议:当Adam效果不佳时,我们建议将β₂调高,并与批量大小成反比,以超过阈值β₂*,然后尝试β₁< √β₂。我们的建议得到了几项实证研究报告的支持,这些研究观察到应用这些建议后,LLM的训练性能有所提高。

🔬 方法详解

问题定义:现有研究表明,在某些情况下,Adam优化器会发散,这给依赖Adam进行模型训练(尤其是大型语言模型)带来了风险。现有方法通常在选定问题后,再选择固定的Adam超参数,这与实际应用中先确定问题再调整超参数的流程不符。因此,需要研究在何种超参数设置下,Adam能够保证收敛。

核心思路:论文的核心思路是,Adam的收敛性与超参数(β₁, β₂)的选择密切相关,并且这种关系是问题相关的。通过理论分析,论文揭示了在(β₁, β₂)平面上存在一个相变边界,区分了Adam的发散和收敛区域。论文认为,实际应用中应该根据具体问题(特别是批量大小)来调整超参数,以确保Adam的收敛性。

技术框架:论文主要采用理论分析的方法,没有涉及具体的模型架构或训练流程。其核心在于对Adam优化器的更新规则进行数学推导,分析不同超参数组合下,梯度更新的稳定性和收敛性。论文通过构建数学模型,证明了在特定条件下Adam的收敛性,并指出了发散区域的存在。

关键创新:论文最重要的创新点在于发现了Adam优化器在超参数空间中的相变现象。具体来说,论文证明了存在一个临界边界(β₁, β₂),当(β₁, β₂)位于该边界的一侧时,Adam收敛;而位于另一侧时,Adam发散。此外,论文还指出这个临界边界是问题相关的,特别是依赖于批量大小,这为实际应用中超参数的调整提供了理论指导。

关键设计:论文的关键设计在于对Adam更新规则的深入分析。通过对Adam更新公式的迭代展开,论文推导出了梯度更新的表达式,并分析了其稳定性。论文通过数学证明,给出了Adam收敛的充分条件,即β₂较大且β₁ < √β₂。同时,论文也指出了当β₂较小时,Adam可能发散的区域。此外,论文还强调了批量大小对临界边界的影响,并提出了相应的超参数调整策略。

📊 实验亮点

论文通过理论分析,证明了Adam在特定超参数条件下可以收敛,并揭示了其收敛-发散相变现象。研究表明,当β₂较大且β₁ < √β₂时,Adam收敛。此外,论文还指出了临界边界(β₁, β₂)与批量大小相关,并提出了相应的超参数调整策略,经验证可提升LLM训练性能。

🎯 应用场景

该研究成果可应用于深度学习模型的训练,尤其是在训练大型语言模型时,能够指导用户选择合适的Adam超参数,避免训练过程中的发散问题,提高模型训练的稳定性和效率。该研究对于优化算法的理论分析和实际应用具有重要意义。

📄 摘要(原文)

Adam is the default algorithm for training neural networks, including large language models (LLMs). However, \citet{reddi2019convergence} provided an example that Adam diverges, raising concerns for its deployment in AI model training. We identify a key mismatch between the divergence example and practice: \citet{reddi2019convergence} pick the problem after picking the hyperparameters of Adam, i.e., $(β_1,β_2)$; while practical applications often fix the problem first and then tune $(β_1,β_2)$. In this work, we prove that Adam converges with proper problem-dependent hyperparameters. First, we prove that Adam converges when $β_2$ is large and $β_1 < \sqrt{β_2}$. Second, when $β_2$ is small, we point out a region of $(β_1,β_2)$ combinations where Adam can diverge to infinity. Our results indicate a phase transition for Adam from divergence to convergence when changing the $(β_1, β_2)$ combination. To our knowledge, this is the first phase transition in $(β_1,β_2)$ 2D-plane reported in the literature, providing rigorous theoretical guarantees for Adam optimizer. We further point out that the critical boundary $(β_1^, β_2^)$ is problem-dependent, and particularly, dependent on batch size. This provides suggestions on how to tune $β_1$ and $β_2$: when Adam does not work well, we suggest tuning up $β_2$ inversely with batch size to surpass the threshold $β_2^*$, and then trying $β_1< \sqrt{β_2}$. Our suggestions are supported by reports from several empirical studies, which observe improved LLM training performance when applying them.