When Weak LLMs Speak with Confidence, Preference Alignment Gets Stronger

📄 arXiv: 2603.04968v1 📥 PDF

作者: Amirabbas Afzali, Myeongho Jeon, Maria Brbic

分类: cs.CL, cs.AI

发布日期: 2026-03-05

备注: 32 pages, 8 figures, International Conference on Learning Representations 2026


💡 一句话要点

利用弱LLM置信度加权,显著提升偏好对齐效果

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 偏好对齐 大型语言模型 置信度加权 弱监督学习 人类价值观

📋 核心要点

  1. 现有偏好对齐方法依赖昂贵的人工标注或大规模API模型,成本高昂且效率较低。
  2. 提出Confidence-Weighted Preference Optimization (CW-PO)框架,利用弱LLM的置信度对训练样本进行加权。
  3. 实验表明,仅使用20%的人工标注,CW-PO对齐的模型性能优于使用100%人工标注训练的模型。

📝 摘要(中文)

偏好对齐是使大型语言模型(LLMs)适应人类价值观的关键步骤,但现有方法通常依赖于昂贵的人工标注或大规模的API模型。本文探讨了是否可以使用一个弱LLM来充当有效的标注器。研究发现,仅选择弱LLM中高置信度的样本子集,就能获得比使用完整的人工标注更好的性能,这一结果令人惊讶。基于此,本文提出了置信度加权偏好优化(CW-PO)框架,该框架通过弱LLM的置信度对训练样本进行重新加权,并可应用于不同的偏好优化目标。值得注意的是,仅使用20%人工标注,通过CW-PO对齐的模型,在标准DPO下,性能优于使用100%人工标注训练的模型。这些结果表明,弱LLM与置信度加权相结合,可以显著降低偏好对齐的成本,甚至优于在完全人工标注数据上训练的方法。

🔬 方法详解

问题定义:现有偏好对齐方法依赖大量人工标注数据或强大的API模型,成本高昂且效率低下。如何降低偏好对齐的成本,同时保证甚至提升对齐效果,是本文要解决的核心问题。现有方法未能充分利用弱LLM的知识,简单地将其作为标注器使用,忽略了其置信度信息,导致标注质量不高。

核心思路:本文的核心思路是利用弱LLM的置信度信息来指导偏好对齐过程。作者观察到,弱LLM虽然整体性能较弱,但对其高置信度的样本,其判断往往是准确的。因此,通过对高置信度样本赋予更高的权重,可以更有效地训练模型,从而提高偏好对齐的效果。

技术框架:CW-PO框架包含以下主要步骤:1) 使用弱LLM对训练数据进行标注,并获得每个样本的置信度得分;2) 根据弱LLM的置信度得分,对训练样本进行重新加权;3) 使用重新加权后的训练数据,通过偏好优化算法(如DPO)对目标模型进行训练。该框架可以与不同的偏好优化目标相结合,具有良好的通用性。

关键创新:本文最重要的创新点在于提出了置信度加权的思想,将弱LLM的置信度信息融入到偏好对齐过程中。与现有方法相比,CW-PO能够更有效地利用弱LLM的知识,从而降低对人工标注数据的依赖,并提高对齐效果。

关键设计:CW-PO的关键设计在于如何计算和使用弱LLM的置信度得分。论文中使用了softmax概率作为置信度得分,并采用了一种简单的线性加权方式。未来的研究可以探索更复杂的置信度计算方法和加权策略,以进一步提高CW-PO的性能。此外,损失函数采用标准的DPO损失函数,但对每个样本的损失值乘以相应的置信度权重。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,仅使用20%的人工标注,通过CW-PO对齐的模型,在标准DPO下,性能优于使用100%人工标注训练的模型。这表明CW-PO能够显著降低对人工标注数据的依赖,并提高对齐效果。此外,实验还验证了CW-PO在不同偏好优化目标下的通用性。

🎯 应用场景

该研究成果可广泛应用于各种需要进行偏好对齐的场景,例如对话系统、文本生成、推荐系统等。通过利用弱LLM和置信度加权,可以显著降低偏好对齐的成本,并提高对齐效果,从而加速LLM在实际应用中的部署。此外,该方法还可以用于数据增强,提高模型的鲁棒性。

📄 摘要(原文)

Preference alignment is an essential step in adapting large language models (LLMs) to human values, but existing approaches typically depend on costly human annotations or large-scale API-based models. We explore whether a weak LLM can instead act as an effective annotator. We surprisingly find that selecting only a subset of a weak LLM's highly confident samples leads to substantially better performance than using full human annotations. Building on this insight, we propose Confidence-Weighted Preference Optimization (CW-PO), a general framework that re-weights training samples by a weak LLM's confidence and can be applied across different preference optimization objectives. Notably, the model aligned by CW-PO with just 20% of human annotations outperforms the model trained with 100% of annotations under standard DPO. These results suggest that weak LLMs, when paired with confidence weighting, can dramatically reduce the cost of preference alignment while even outperforming methods trained on fully human-labeled data.