Prior-Informed Zeroth-Order Optimization with Adaptive Direction Alignment for Memory-Efficient LLM Fine-Tuning

📄 arXiv: 2601.04710v1 📥 PDF

作者: Feihu Jin, Shipeng Cen, Ying Tan

分类: cs.CL, cs.LG

发布日期: 2026-01-08

备注: 12pages, 6figures


💡 一句话要点

提出先验引导的零阶优化方法,高效微调大规模语言模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 零阶优化 大规模语言模型 模型微调 梯度估计 先验知识

📋 核心要点

  1. 大规模语言模型微调面临内存瓶颈,传统零阶优化梯度估计方差大,收敛慢。
  2. 提出先验引导的零阶优化方法,通过动态计算引导向量,将扰动导向信息量更大的方向。
  3. 实验表明,该方法在不同规模LLM上均能加速收敛,并在OPT-13B模型上超越传统零阶优化和部分梯度优化方法。

📝 摘要(中文)

微调大型语言模型(LLMs)在各种NLP任务中取得了显著成功,但反向传播期间的大量内存开销仍然是一个关键瓶颈,尤其是在模型规模增长时。零阶(ZO)优化通过前向传递和高斯采样来估计梯度,避免了反向传播,从而缓解了这个问题。然而,传统的ZO方法由于依赖随机扰动,导致梯度估计方差较高,从而导致收敛缓慢和性能欠佳。我们提出了一种简单的即插即用方法,该方法结合了先验引导的扰动来改进梯度估计。我们的方法动态地从高斯样本中计算引导向量,该向量将扰动引导到信息量更大的方向,与标准ZO方法相比,显著加快了收敛速度。我们进一步研究了一种贪婪扰动策略,以探索先验知识对梯度估计的影响。从理论上讲,我们证明了我们的梯度估计器实现了与真实梯度方向更强的对齐,从而提高了优化效率。在不同规模和架构的LLM上进行的大量实验表明,我们提出的方法可以无缝地集成到现有的优化方法中,从而提供更快的收敛速度和卓越的性能。值得注意的是,在OPT-13B模型上,我们的方法在所有11个基准任务中都优于传统的ZO优化,并且在11个任务中的9个任务上超过了基于梯度的基线,从而在效率和准确性之间建立了强大的平衡。

🔬 方法详解

问题定义:现有的大规模语言模型微调方法,特别是基于反向传播的方法,需要消耗大量的内存资源,这限制了模型规模的进一步扩大和部署。零阶优化方法虽然避免了反向传播,但由于其依赖于随机扰动来估计梯度,导致梯度估计的方差较高,收敛速度慢,性能也难以达到最优。

核心思路:论文的核心思路是利用先验知识来引导零阶优化中的扰动方向,从而降低梯度估计的方差,提高收敛速度。具体来说,通过动态计算一个引导向量,使得扰动更有可能朝着对优化目标有益的方向进行,从而更有效地探索参数空间。

技术框架:该方法是一个即插即用的模块,可以集成到现有的零阶优化算法中。其主要流程包括:1)生成高斯样本;2)利用高斯样本动态计算引导向量;3)根据引导向量调整扰动方向;4)使用调整后的扰动进行梯度估计;5)更新模型参数。

关键创新:该方法最重要的创新点在于引入了先验知识来指导零阶优化中的扰动方向。与传统的随机扰动方法相比,该方法能够更有效地利用有限的样本信息,从而降低梯度估计的方差,提高优化效率。

关键设计:关键设计包括:1)引导向量的计算方式,论文中采用了一种动态计算方法,根据高斯样本的信息来确定引导向量的方向和大小;2)扰动方向的调整策略,论文中采用了一种贪婪策略,优先选择能够带来最大收益的扰动方向;3)该方法可以与不同的零阶优化算法相结合,具有良好的通用性。

📊 实验亮点

实验结果表明,该方法在不同规模的LLM上均能显著提高微调效率。在OPT-13B模型上,该方法在所有11个基准任务中均优于传统的零阶优化方法,并且在9个任务上超过了基于梯度的基线方法。这表明该方法在效率和准确性之间取得了良好的平衡。

🎯 应用场景

该研究成果可广泛应用于大规模语言模型的微调,尤其是在资源受限的环境下,例如边缘设备或内存容量有限的服务器。通过提高微调效率,可以降低训练成本,加速模型迭代,并促进LLM在更多实际场景中的应用,例如智能客服、文本生成、机器翻译等。

📄 摘要(原文)

Fine-tuning large language models (LLMs) has achieved remarkable success across various NLP tasks, but the substantial memory overhead during backpropagation remains a critical bottleneck, especially as model scales grow. Zeroth-order (ZO) optimization alleviates this issue by estimating gradients through forward passes and Gaussian sampling, avoiding the need for backpropagation. However, conventional ZO methods suffer from high variance in gradient estimation due to their reliance on random perturbations, leading to slow convergence and suboptimal performance. We propose a simple plug-and-play method that incorporates prior-informed perturbations to refine gradient estimation. Our method dynamically computes a guiding vector from Gaussian samples, which directs perturbations toward more informative directions, significantly accelerating convergence compared to standard ZO approaches. We further investigate a greedy perturbation strategy to explore the impact of prior knowledge on gradient estimation. Theoretically, we prove that our gradient estimator achieves stronger alignment with the true gradient direction, enhancing optimization efficiency. Extensive experiments across LLMs of varying scales and architectures demonstrate that our proposed method could seamlessly integrate into existing optimization methods, delivering faster convergence and superior performance. Notably, on the OPT-13B model, our method outperforms traditional ZO optimization across all 11 benchmark tasks and surpasses gradient-based baselines on 9 out of 11 tasks, establishing a robust balance between efficiency and accuracy.