Semiparametric Preference Optimization: Your Language Model is Secretly a Single-Index Model

📄 arXiv: 2512.21917v1 📥 PDF

作者: Nathan Kallus

分类: cs.LG, cs.AI, econ.EM, stat.ML

发布日期: 2025-12-26


💡 一句话要点

提出半参数偏好优化方法,解决语言模型对齐中链接函数未知的问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语言模型对齐 偏好优化 半参数模型 单指标模型 策略学习 f-散度 奖励最大化

📋 核心要点

  1. 现有方法依赖于预定义的链接函数来对齐语言模型与偏好数据,但错误的链接函数会导致偏差和策略错位。
  2. 论文提出一种半参数偏好优化方法,无需预先指定链接函数,通过单指标模型捕捉偏好分布的依赖关系。
  3. 该方法开发了多种策略学习器,并提供了有限样本误差界限,同时适用于神经网络和批量数据,提高了鲁棒性。

📝 摘要(中文)

将大型语言模型与偏好数据对齐通常假设观察到的偏好分布与未观察到的奖励之间存在已知的链接函数(例如,Bradley-Terry 中的 Logistic 链接)。然而,如果链接函数不正确,推断出的奖励可能会有偏差,并且策略可能会错位。本文研究了在未知和不受限制的链接函数下,策略与偏好对齐的问题。我们考虑一个 $f$-散度约束的奖励最大化问题,并表明策略类中解的可实现性意味着一个半参数单指标二元选择模型,其中由策略确定的标量值指标捕获对演示的依赖性,并且偏好分布的其余部分是它的一个不受限制的函数。与经济计量学中关注指标中可识别的有限维结构参数的估计不同,我们专注于策略学习,关注最优策略的误差,并允许不可识别和非参数指标。我们开发了各种基于分析链接函数、正交化链接函数和使用与链接无关的双边排序目标的策略学习器。我们分析了这些学习器,并提供了依赖于指标类的一般函数复杂性度量的有限样本策略误差界限。我们进一步考虑了使用适用于神经网络和批量数据的一阶优化的实际实现。由此产生的方法对未知的偏好噪声分布和尺度具有鲁棒性,同时保留了策略的直接优化,而无需显式拟合奖励。

🔬 方法详解

问题定义:现有的大型语言模型对齐方法通常依赖于预先设定的链接函数来关联观察到的偏好和未观察到的奖励。然而,这种方法的痛点在于,如果选择的链接函数与真实情况不符,那么推断出的奖励将会产生偏差,最终导致策略的错位,影响模型的性能。因此,如何在链接函数未知的情况下进行有效的策略对齐是一个关键问题。

核心思路:本文的核心思路是将策略对齐问题转化为一个半参数单指标二元选择模型。该模型的核心在于使用一个标量值的指标来捕捉策略对演示数据的依赖关系,而偏好分布的其余部分则被视为该指标的一个不受限制的函数。这种方法避免了对链接函数的具体形式进行假设,从而提高了模型的鲁棒性。

技术框架:整体框架包括以下几个主要步骤:首先,定义一个 $f$-散度约束的奖励最大化问题。然后,证明在该问题解的可实现性条件下,可以推导出半参数单指标模型。接着,基于该模型,开发多种策略学习器,包括基于分析链接函数、正交化链接函数和使用与链接无关的双边排序目标的学习器。最后,对这些学习器进行分析,并提供有限样本策略误差界限。

关键创新:最重要的技术创新点在于提出了半参数单指标模型,该模型允许链接函数是未知的和非参数的,从而避免了对链接函数的错误假设。与传统的经济计量学方法不同,本文侧重于策略学习,而不是对指标中的可识别参数进行估计。

关键设计:论文的关键设计包括:1) 使用 $f$-散度约束来控制策略的偏差;2) 开发了多种策略学习器,以适应不同的场景;3) 提供了有限样本策略误差界限,用于评估学习器的性能;4) 考虑了使用一阶优化算法的实际实现,使其适用于神经网络和批量数据。

📊 实验亮点

论文的主要实验结果集中在理论分析上,提供了有限样本策略误差界限,证明了所提出的策略学习器的有效性。虽然没有提供具体的数值结果,但理论分析表明,该方法在未知链接函数的情况下,能够实现对最优策略的有效逼近,并且对偏好噪声具有鲁棒性。

🎯 应用场景

该研究成果可应用于各种需要对语言模型进行偏好对齐的场景,例如对话系统、文本摘要、代码生成等。通过提高模型对用户偏好的理解和适应能力,可以显著提升用户体验和模型性能。此外,该方法对未知偏好噪声的鲁棒性使其在实际应用中更具优势。

📄 摘要(原文)

Aligning large language models to preference data is commonly implemented by assuming a known link function between the distribution of observed preferences and the unobserved rewards (e.g., a logistic link as in Bradley-Terry). If the link is wrong, however, inferred rewards can be biased and policies be misaligned. We study policy alignment to preferences under an unknown and unrestricted link. We consider an $f$-divergence-constrained reward maximization problem and show that realizability of the solution in a policy class implies a semiparametric single-index binary choice model, where a scalar-valued index determined by a policy captures the dependence on demonstrations and the rest of the preference distribution is an unrestricted function thereof. Rather than focus on estimation of identifiable finite-dimensional structural parameters in the index as in econometrics, we focus on policy learning, focusing on error to the optimal policy and allowing unidentifiable and nonparametric indices. We develop a variety of policy learners based on profiling the link function, orthogonalizing the link function, and using link-agnostic bipartite ranking objectives. We analyze these and provide finite-sample policy error bounds that depend on generic functional complexity measures of the index class. We further consider practical implementations using first-order optimization suited to neural networks and batched data. The resulting methods are robust to unknown preference noise distribution and scale, while preserving the direct optimization of policies without explicitly fitting rewards.