SemPA: Improving Sentence Embeddings of Large Language Models through Semantic Preference Alignment

📄 arXiv: 2601.05075v1 📥 PDF

作者: Ziyang Chen, Zhenxuan Huang, Yile Wang, Weiqin Wang, Lu Yin, Hui Huang

分类: cs.CL

发布日期: 2026-01-08


💡 一句话要点

SemPA:通过语义偏好对齐提升大语言模型的句子嵌入表示

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 句子嵌入 大语言模型 语义偏好对齐 直接偏好优化 对比学习

📋 核心要点

  1. 现有句子嵌入方法或依赖固定prompt模板,优化不足,或修改模型架构,损害生成能力。
  2. SemPA通过语义偏好对齐,利用句子级DPO优化LLM,使其区分语义等价句子,同时保留生成能力。
  3. 实验表明,SemPA在提升语义表示的同时,未牺牲LLM的生成能力,并在多项任务上取得更优结果。

📝 摘要(中文)

本文提出了一种名为SemPA的新方法,旨在提升大语言模型(LLM)的句子嵌入表示,同时保留其生成能力。与传统在非生成预训练模型上采用token级别对比学习的句子嵌入方法不同,SemPA利用句子级别的直接偏好优化(DPO)来高效地优化LLM,使其在释义生成任务中学习区分语义等价的句子,并保持固有的生成能力。理论上,本文在Plackett-Luce模型框架下建立了DPO与对比学习之间的正式联系。实验结果表明,SemPA在语义文本相似性任务和各种LLM基准测试中均取得了更好的语义表示,且未牺牲LLM固有的生成能力。

🔬 方法详解

问题定义:现有基于LLM的句子嵌入方法存在局限性。一种方法是使用固定的prompt模板,但缺乏对模型的进一步优化,导致性能受限。另一种方法是修改LLM的内部架构,虽然可能提升嵌入效果,但会改变模型的计算机制,从而损害其原有的生成能力。因此,如何在提升LLM句子嵌入质量的同时,保持其强大的生成能力是一个关键问题。

核心思路:SemPA的核心思路是通过语义偏好对齐来优化LLM。具体来说,利用句子级别的直接偏好优化(DPO),使LLM学习区分语义等价的句子,从而提升句子嵌入的质量。DPO方法避免了直接修改模型架构,因此能够保留LLM原有的生成能力。

技术框架:SemPA的技术框架主要包括以下几个步骤:1) 构建释义生成数据集,包含语义等价的句子对;2) 使用DPO方法在释义生成任务上微调LLM,使其学习对语义等价的句子赋予更高的偏好;3) 使用微调后的LLM生成句子嵌入;4) 在语义文本相似性任务和LLM基准测试中评估句子嵌入的质量和LLM的生成能力。

关键创新:SemPA最重要的技术创新点在于利用DPO进行语义偏好对齐,从而在提升句子嵌入质量的同时,保留了LLM的生成能力。与传统的对比学习方法不同,DPO直接优化模型的偏好,避免了复杂的负样本采样和损失函数设计。此外,本文还在理论上建立了DPO与对比学习之间的联系,为SemPA的有效性提供了理论支撑。

关键设计:SemPA的关键设计包括:1) 使用句子级别的DPO损失函数,直接优化LLM对语义等价句子的偏好;2) 选择合适的释义生成数据集,保证训练数据的质量;3) 采用适当的超参数设置,例如学习率、batch size等,以获得最佳的优化效果;4) 使用Plackett-Luce模型框架,从理论上证明DPO与对比学习的等价性。

📊 实验亮点

实验结果表明,SemPA在语义文本相似性(STS)任务上取得了显著的性能提升。例如,在STS benchmark上,SemPA的平均得分超过了现有的SOTA方法。此外,在LLM基准测试中,SemPA在提升句子嵌入质量的同时,并未牺牲LLM的生成能力,证明了其有效性。

🎯 应用场景

SemPA具有广泛的应用前景,可用于提升各种基于LLM的自然语言处理任务的性能,例如语义搜索、文本分类、问答系统等。通过提升句子嵌入的质量,SemPA可以帮助这些应用更好地理解和处理自然语言文本。此外,由于SemPA保留了LLM的生成能力,因此还可以应用于文本生成、机器翻译等任务。

📄 摘要(原文)

Traditional sentence embedding methods employ token-level contrastive learning on non-generative pre-trained models. Recently, there have emerged embedding methods based on generative large language models (LLMs). These methods either rely on fixed prompt templates or involve modifications to the model architecture. The former lacks further optimization of the model and results in limited performance, while the latter alters the internal computational mechanisms of the model, thereby compromising its generative capabilities. We propose SemPA, a novel approach that boosts the sentence representations while preserving the generative ability of LLMs via semantic preference alignment. We leverage sentence-level Direct Preference Optimization (DPO) to efficiently optimize LLMs on a paraphrase generation task, where the model learns to discriminate semantically equivalent sentences while preserving inherent generative capacity. Theoretically, we establish a formal connection between DPO and contrastive learning under the Plackett-Luce model framework. Empirically, experimental results on both semantic textual similarity tasks and various benchmarks for LLMs show that SemPA achieves better semantic representations without sacrificing the inherent generation capability of LLMs.