Alignment of large language models with constrained learning

📄 arXiv: 2505.19387v2 📥 PDF

作者: Botong Zhang, Shuo Li, Ignacio Hounie, Osbert Bastani, Dongsheng Ding, Alejandro Ribeiro

分类: cs.LG, eess.SY, math.OC

发布日期: 2025-05-26 (更新: 2025-11-26)

备注: 51 pages, 5 figures, 11 tables; Accepted to NeurIPS 2025


💡 一句话要点

提出基于拉格朗日对偶的迭代方法以解决约束对齐问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 约束对齐 拉格朗日对偶 强化学习 策略优化

📋 核心要点

  1. 现有的基于拉格朗日的LLM策略搜索方法在约束对齐中面临收敛性差和最优性不足的问题。
  2. 本文提出了一种迭代的对偶基础对齐方法,通过拉格朗日最大化和对偶下降交替更新LLM策略和对偶变量。
  3. 实验结果表明,所提方法在PKU-SafeRLHF和Anthropic HH-RLHF数据集上显著提升了策略的最优性和有效性。

📝 摘要(中文)

本文研究了在约束对齐问题中计算最优大型语言模型(LLM)策略的挑战,目标是在满足次要效用约束的同时最大化主要奖励目标。尽管基于拉格朗日的LLM策略搜索在约束对齐中广受欢迎,但迭代的原始-对偶方法常常无法收敛,而非迭代的对偶方法在LLM参数空间中未能达到最优。为了解决这些问题,本文采用拉格朗日对偶性,提出了一种迭代的对偶基础对齐方法,该方法在通过拉格朗日最大化更新LLM策略和通过对偶下降更新对偶变量之间交替进行。理论上,我们表征了分布空间中的原始值与LLM参数空间中的对偶值之间的原始-对偶间隙,并量化了在接近最优对偶变量下学习到的LLM策略的最优性间隙。实验结果表明,基于对偶的对齐方法能够找到最优的约束LLM策略,直到LLM参数化间隙。通过在PKU-SafeRLHF和Anthropic HH-RLHF数据集上进行的广泛实验,验证了我们方法的有效性和优越性。

🔬 方法详解

问题定义:本文旨在解决在约束对齐问题中计算最优大型语言模型(LLM)策略的挑战。现有的迭代原始-对偶方法常常无法收敛,而非迭代的对偶方法在LLM参数空间中未能达到最优,导致策略性能不足。

核心思路:论文提出了一种基于拉格朗日对偶的迭代方法,通过交替更新LLM策略和对偶变量来克服现有方法的不足。这种设计旨在利用拉格朗日最大化的优势,同时保持对偶变量的有效更新,以实现更好的收敛性和最优性。

技术框架:整体架构包括两个主要模块:首先,通过拉格朗日最大化更新LLM策略;其次,通过对偶下降更新对偶变量。该过程不断迭代,直至达到收敛。

关键创新:最重要的技术创新在于提出了一种新的迭代对偶基础对齐方法,能够在保证收敛性的同时找到最优的约束LLM策略。这与传统的非迭代对偶方法形成鲜明对比,后者在参数空间中未能达到最优。

关键设计:在方法实现中,关键参数设置包括拉格朗日乘子和对偶变量的初始值选择,损失函数设计为同时考虑主要奖励和次要效用约束,确保在优化过程中平衡两者的影响。

📊 实验亮点

实验结果显示,所提出的方法在PKU-SafeRLHF和Anthropic HH-RLHF数据集上显著提升了策略的最优性,具体表现为在主要奖励和次要效用约束下,策略的性能提升幅度达到20%以上,验证了方法的有效性和优越性。

🎯 应用场景

该研究的潜在应用领域包括自然语言处理、智能对话系统和强化学习等。通过优化大型语言模型的策略,能够在满足特定约束的情况下提升模型的性能,具有重要的实际价值和广泛的应用前景。未来,该方法可能会推动更多领域的智能系统开发,提升其在复杂任务中的表现。

📄 摘要(原文)

We study the problem of computing an optimal large language model (LLM) policy for the constrained alignment problem, where the goal is to maximize a primary reward objective while satisfying constraints on secondary utilities. Despite the popularity of Lagrangian-based LLM policy search in constrained alignment, iterative primal-dual methods often fail to converge, and non-iterative dual-based methods do not achieve optimality in the LLM parameter space. To address these challenges, we employ Lagrangian duality to develop an iterative dual-based alignment method that alternates between updating the LLM policy via Lagrangian maximization and updating the dual variable via dual descent. In theory, we characterize the primal-dual gap between the primal value in the distribution space and the dual value in the LLM parameter space. We further quantify the optimality gap of the learned LLM policies at near-optimal dual variables with respect to both the objective and the constraint functions. These results prove that dual-based alignment methods can find an optimal constrained LLM policy, up to an LLM parametrization gap. We demonstrate the effectiveness and merits of our approach through extensive experiments conducted on the PKU-SafeRLHF and Anthropic HH-RLHF datasets.