Adam Converges Without Any Modification On Update Rules

作者: Yushun Zhang, Bingran Li, Congliang Chen, Zhi-Quan Luo, Ruoyu Sun

分类: cs.LG, math.OC

发布日期: 2026-03-02

备注: 66 pages

💡 一句话要点

证明Adam在适当超参数下收敛，揭示其收敛-发散相变现象

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: Adam优化器 收敛性分析 超参数调整 相变现象 大型语言模型 批量大小 深度学习 优化算法

📋 核心要点

现有研究表明Adam可能发散，对其在大型模型训练中的应用提出质疑。
论文证明，在问题相关的超参数下，Adam可以收敛，揭示了其收敛-发散相变现象。
研究表明临界边界与批量大小相关，并为超参数调整提供了实用建议，经验证可提升LLM训练性能。

📝 摘要（中文）

Adam是训练神经网络（包括大型语言模型LLM）的默认算法。然而，Reddi等人的研究表明Adam可能发散，引发了对其在AI模型训练中应用的担忧。我们发现发散示例与实践之间存在关键不匹配：Reddi等人在选择Adam的超参数(β₁, β₂)之后才选择问题；而实际应用通常先确定问题，然后调整(β₁, β₂)。本文证明了Adam在适当的、问题相关的超参数下可以收敛。首先，我们证明当β₂较大且β₁ < √β₂时，Adam收敛。其次，当β₂较小时，我们指出了(β₁, β₂)组合的一个区域，其中Adam可能发散到无穷大。我们的结果表明，改变(β₁, β₂)组合时，Adam会发生从发散到收敛的相变。据我们所知，这是文献中首次报道的(β₁, β₂)二维平面上的相变，为Adam优化器提供了严格的理论保证。我们进一步指出，临界边界(β₁, β₂)是问题相关的，特别是依赖于批量大小。这为如何调整β₁和β₂提供了建议：当Adam效果不佳时，我们建议将β₂调高，并与批量大小成反比，以超过阈值β₂*，然后尝试β₁< √β₂。我们的建议得到了几项实证研究报告的支持，这些研究观察到应用这些建议后，LLM的训练性能有所提高。

🔬 方法详解

问题定义：现有研究表明，在某些情况下，Adam优化器会发散，这给依赖Adam进行模型训练（尤其是大型语言模型）带来了风险。现有方法通常在选定问题后，再选择固定的Adam超参数，这与实际应用中先确定问题再调整超参数的流程不符。因此，需要研究在何种超参数设置下，Adam能够保证收敛。

核心思路：论文的核心思路是，Adam的收敛性与超参数(β₁, β₂)的选择密切相关，并且这种关系是问题相关的。通过理论分析，论文揭示了在(β₁, β₂)平面上存在一个相变边界，区分了Adam的发散和收敛区域。论文认为，实际应用中应该根据具体问题（特别是批量大小）来调整超参数，以确保Adam的收敛性。

技术框架：论文主要采用理论分析的方法，没有涉及具体的模型架构或训练流程。其核心在于对Adam优化器的更新规则进行数学推导，分析不同超参数组合下，梯度更新的稳定性和收敛性。论文通过构建数学模型，证明了在特定条件下Adam的收敛性，并指出了发散区域的存在。

关键创新：论文最重要的创新点在于发现了Adam优化器在超参数空间中的相变现象。具体来说，论文证明了存在一个临界边界(β₁, β₂)，当(β₁, β₂)位于该边界的一侧时，Adam收敛；而位于另一侧时，Adam发散。此外，论文还指出这个临界边界是问题相关的，特别是依赖于批量大小，这为实际应用中超参数的调整提供了理论指导。

关键设计：论文的关键设计在于对Adam更新规则的深入分析。通过对Adam更新公式的迭代展开，论文推导出了梯度更新的表达式，并分析了其稳定性。论文通过数学证明，给出了Adam收敛的充分条件，即β₂较大且β₁ < √β₂。同时，论文也指出了当β₂较小时，Adam可能发散的区域。此外，论文还强调了批量大小对临界边界的影响，并提出了相应的超参数调整策略。

📊 实验亮点

论文通过理论分析，证明了Adam在特定超参数条件下可以收敛，并揭示了其收敛-发散相变现象。研究表明，当β₂较大且β₁ < √β₂时，Adam收敛。此外，论文还指出了临界边界(β₁, β₂)与批量大小相关，并提出了相应的超参数调整策略，经验证可提升LLM训练性能。

🎯 应用场景

该研究成果可应用于深度学习模型的训练，尤其是在训练大型语言模型时，能够指导用户选择合适的Adam超参数，避免训练过程中的发散问题，提高模型训练的稳定性和效率。该研究对于优化算法的理论分析和实际应用具有重要意义。

📄 摘要（原文）

Adam is the default algorithm for training neural networks, including large language models (LLMs). However, \citet{reddi2019convergence} provided an example that Adam diverges, raising concerns for its deployment in AI model training. We identify a key mismatch between the divergence example and practice: \citet{reddi2019convergence} pick the problem after picking the hyperparameters of Adam, i.e., $(β_1,β_2)$; while practical applications often fix the problem first and then tune $(β_1,β_2)$. In this work, we prove that Adam converges with proper problem-dependent hyperparameters. First, we prove that Adam converges when $β_2$ is large and $β_1 < \sqrt{β_2}$. Second, when $β_2$ is small, we point out a region of $(β_1,β_2)$ combinations where Adam can diverge to infinity. Our results indicate a phase transition for Adam from divergence to convergence when changing the $(β_1, β_2)$ combination. To our knowledge, this is the first phase transition in $(β_1,β_2)$ 2D-plane reported in the literature, providing rigorous theoretical guarantees for Adam optimizer. We further point out that the critical boundary $(β_1^, β_2^)$ is problem-dependent, and particularly, dependent on batch size. This provides suggestions on how to tune $β_1$ and $β_2$: when Adam does not work well, we suggest tuning up $β_2$ inversely with batch size to surpass the threshold $β_2^*$, and then trying $β_1< \sqrt{β_2}$. Our suggestions are supported by reports from several empirical studies, which observe improved LLM training performance when applying them.

Adam Converges Without Any Modification On Update Rules

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理