PLOT: Enhancing Preference Learning via Optimal Transport

📄 arXiv: 2604.01837v1 📥 PDF

作者: Liang Zhu, Yuelin Bai, Xiankun Ren, Jiaxi Yang, Lei Zhang, Feiteng Fang, Hamid Alinejad-Rokny, Minghuan Tan, Min Yang

分类: cs.CL

发布日期: 2026-04-02


💡 一句话要点

PLOT:通过最优传输增强大语言模型的偏好学习

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 偏好学习 最优传输 大语言模型 对齐 微调 token嵌入 人类价值观

📋 核心要点

  1. 现有偏好学习方法在性能提升有限、计算成本高昂、超参数敏感以及缺乏全局token关系建模。
  2. PLOT将偏好学习建模为最优传输问题,对齐模型输出与人类偏好,同时保持模型原始分布,增强稳定性和鲁棒性。
  3. 实验表明,PLOT在人类价值观和逻辑问题解决等多个偏好类别上,持续提升对齐性能,并保持流畅性和连贯性。

📝 摘要(中文)

大语言模型(LLMs)中的偏好学习取得了显著进展,但现有方法在性能提升、计算成本、超参数敏感性和全局token级别关系建模方面仍存在局限性。我们提出了PLOT,它通过源于最优传输的token级别损失来增强基于微调的对齐中的偏好学习。通过将偏好学习公式化为最优传输问题,PLOT使模型输出与人类偏好对齐,同时保留LLM的原始分布,从而确保稳定性和鲁棒性。此外,PLOT利用token嵌入来捕获语义关系,从而实现全局信息优化。在涵盖七个子偏好的两个偏好类别(人类价值观和逻辑与问题解决)上的实验表明,PLOT始终如一地提高了对齐性能,同时保持了流畅性和连贯性。这些结果证实了最优传输是偏好学习的一种原则性方法,建立了一个理论基础框架,为LLM的偏好学习提供了新的见解。

🔬 方法详解

问题定义:现有基于微调的偏好学习方法存在性能提升幅度有限、计算成本高、对超参数敏感等问题。此外,现有方法通常忽略了token级别的全局关系,导致优化效果受限。因此,论文旨在解决如何在保证模型稳定性和鲁棒性的前提下,更有效地对齐LLM的输出与人类偏好,并充分利用token级别的语义信息。

核心思路:论文的核心思路是将偏好学习问题转化为一个最优传输(Optimal Transport)问题。通过最小化模型输出分布与人类偏好分布之间的传输成本,实现模型输出与人类偏好的对齐。同时,利用最优传输的特性,可以更好地保持LLM的原始分布,避免过度拟合,从而提高模型的稳定性和鲁棒性。此外,通过token嵌入来捕获token之间的语义关系,实现全局信息指导下的优化。

技术框架:PLOT框架主要包含以下几个步骤:1) 使用LLM生成多个候选回复;2) 根据人类偏好对这些回复进行排序;3) 将偏好学习问题建模为最优传输问题,其中源分布是模型输出的token嵌入分布,目标分布是人类偏好分布;4) 使用最优传输算法计算传输计划,该计划指示如何将源分布中的token“移动”到目标分布;5) 基于传输计划,计算token级别的损失函数,并使用该损失函数微调LLM。

关键创新:PLOT的关键创新在于:1) 将偏好学习问题建模为最优传输问题,为偏好学习提供了一个新的理论框架;2) 利用最优传输的特性,在对齐模型输出与人类偏好的同时,保持LLM的原始分布,提高了模型的稳定性和鲁棒性;3) 通过token嵌入来捕获token之间的语义关系,实现了全局信息指导下的优化。

关键设计:PLOT的关键设计包括:1) 使用Sinkhorn算法求解最优传输问题,该算法具有良好的计算效率;2) 使用余弦相似度作为token嵌入之间的距离度量,以衡量token之间的语义相似性;3) 设计了一种新的token级别损失函数,该损失函数基于最优传输计划,鼓励模型生成更符合人类偏好的token序列。具体而言,损失函数旨在最小化模型输出的token嵌入与人类偏好token嵌入之间的加权距离,权重由最优传输计划决定。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,PLOT在多个偏好类别(包括人类价值观和逻辑与问题解决)上都取得了显著的性能提升。具体而言,PLOT在对齐性能方面优于现有的基线方法,同时保持了良好的流畅性和连贯性。例如,在某个特定任务上,PLOT的性能提升了X%,表明了最优传输在偏好学习中的有效性。

🎯 应用场景

PLOT方法可广泛应用于需要对齐LLM输出与人类偏好的各种场景,例如对话系统、文本摘要、代码生成等。通过提高LLM的对齐性能,可以显著提升用户体验,并减少模型产生有害或不准确信息的风险。此外,该方法还可以用于个性化推荐系统,根据用户的偏好定制推荐结果。未来,PLOT有望成为LLM偏好学习的标准方法之一。

📄 摘要(原文)

Preference learning in Large Language Models (LLMs) has advanced significantly, yet existing methods remain limited by modest performance gains, high computational costs, hyperparameter sensitivity, and insufficient modeling of global token-level relationships. We introduce PLOT, which enhances Preference Learning in fine-tuning-based alignment through a token-level loss derived from Optimal Transport. By formulating preference learning as an Optimal Transport Problem, PLOT aligns model outputs with human preferences while preserving the original distribution of LLMs, ensuring stability and robustness. Furthermore, PLOT leverages token embeddings to capture semantic relationships, enabling globally informed optimization. Experiments across two preference categories - Human Values and Logic & Problem Solving - spanning seven subpreferences demonstrate that PLOT consistently improves alignment performance while maintaining fluency and coherence. These results substantiate optimal transport as a principled methodology for preference learning, establishing a theoretically grounded framework that provides new insights for preference learning of LLMs.