Limited Preference Data? Learning Better Reward Model with Latent Space Synthesis

作者: Leitian Tao, Xuefeng Du, Sharon Li

分类: cs.CL

发布日期: 2025-09-30 (更新: 2025-10-14)

备注: Accepted by NeurIPS 2025

🔗 代码/项目: GITHUB

💡 一句话要点

LENS：通过潜在空间合成提升有限偏好数据下的奖励模型学习

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 奖励建模 偏好学习 数据增强 潜在空间 变分自编码器

📋 核心要点

奖励建模依赖大量偏好数据，但数据标注成本高昂，现有文本合成方法计算开销大。
LENS在LLM潜在空间中合成偏好数据，利用VAE学习结构化表示，并通过扰动生成多样样本。
实验表明LENS优于文本增强方法，生成速度提升18倍，模型规模缩小16000倍。

📝 摘要（中文）

奖励建模对于将大型语言模型（LLMs）与人类偏好对齐至关重要，但常常受限于偏好数据的高昂成本。现有的文本数据合成方法计算成本很高。我们提出了一个名为LENS的新框架，用于直接在LLM的潜在嵌入空间中合成偏好数据。我们的方法采用变分自编码器（VAE）来学习响应嵌入的结构化潜在表示。通过在此潜在空间中执行受控扰动并解码回嵌入空间，我们高效地生成多样且语义一致的合成偏好对，绕过了昂贵的文本生成和标注。我们提供了理论保证，表明我们合成的偏好对近似保留了原始偏好排序，并提高了奖励模型的泛化能力。实验表明，我们的潜在空间合成在标准基准测试中显著优于基于文本的增强方法，在生成速度上快18倍，模型规模小16000倍的情况下，实现了卓越的结果。我们的工作为通过高效的数据增强来增强奖励建模提供了一种可扩展且有效的替代方案。

🔬 方法详解

问题定义：奖励建模旨在训练一个奖励函数，该函数能够准确预测人类对不同LLM输出的偏好。然而，获取足够数量的人工标注偏好数据成本高昂，成为训练高质量奖励模型的瓶颈。现有的数据增强方法，例如基于文本的生成式方法，计算复杂度高，难以扩展到大型语言模型。

核心思路：LENS的核心思想是在LLM的潜在嵌入空间中直接合成偏好数据，而不是在文本空间中进行生成。通过学习响应嵌入的结构化潜在表示，可以在潜在空间中进行受控扰动，生成语义一致的合成偏好对。这种方法避免了昂贵的文本生成和标注过程，从而提高了数据增强的效率。

技术框架：LENS框架包含以下主要模块：1) 嵌入模块：将LLM的响应文本嵌入到高维向量空间中。2) VAE模块：使用变分自编码器学习响应嵌入的结构化潜在表示。VAE由编码器和解码器组成，编码器将嵌入映射到潜在空间，解码器将潜在向量重构为嵌入。3) 扰动模块：在潜在空间中对潜在向量进行受控扰动，生成新的潜在向量，代表不同的偏好程度。4) 解码模块：将扰动后的潜在向量解码回嵌入空间，得到合成的响应嵌入。5) 偏好对构建模块：将原始响应嵌入和合成的响应嵌入配对，构建合成的偏好数据。

关键创新：LENS的关键创新在于直接在LLM的潜在嵌入空间中进行数据合成，避免了文本生成和标注的成本。与现有方法相比，LENS具有更高的效率和可扩展性。此外，LENS通过理论分析证明了合成的偏好对近似保留了原始偏好排序，并提高了奖励模型的泛化能力。

关键设计：VAE的潜在空间维度、扰动策略（例如，添加高斯噪声或进行线性插值）、以及损失函数（例如，重构损失和KL散度）是LENS的关键设计参数。论文可能采用了特定的损失函数来确保潜在空间的平滑性和连续性，并使用特定的扰动策略来控制合成数据的多样性和质量。具体的网络结构和超参数设置需要在论文中查找。

📊 实验亮点

LENS在标准基准测试中显著优于基于文本的增强方法，在生成速度上快18倍，模型规模小16000倍的情况下，实现了卓越的结果。这表明LENS是一种高效且可扩展的数据增强方法，能够有效提升奖励模型的性能。具体的性能提升幅度需要在论文中查找。

🎯 应用场景

LENS可应用于各种需要奖励建模的场景，例如对话系统、文本摘要、代码生成等。通过高效地合成偏好数据，LENS可以降低训练高质量奖励模型的成本，从而提升LLM在这些任务中的性能。该方法尤其适用于数据稀缺的场景，能够有效缓解数据瓶颈问题，加速LLM的对齐过程。

📄 摘要（原文）

Reward modeling, crucial for aligning large language models (LLMs) with human preferences, is often bottlenecked by the high cost of preference data. Existing textual data synthesis methods are computationally expensive. We propose a novel framework LENS for synthesizing preference data directly in the LLM's latent embedding space. Our method employs a Variational Autoencoder (VAE) to learn a structured latent representation of response embeddings. By performing controlled perturbations in this latent space and decoding back to the embedding space, we efficiently generate diverse, semantically consistent synthetic preference pairs, bypassing costly text generation and annotation. We provide theoretical guarantees that our synthesized pairs approximately preserve original preference ordering and improve reward model generalization. Empirically, our latent-space synthesis significantly outperforms text-based augmentation on standard benchmarks, achieving superior results while being 18x faster in generation and using a 16,000x smaller model. Our work offers a scalable and effective alternative for enhancing reward modeling through efficient data augmentation. Code is publicly available at https://github.com/deeplearning-wisc/lens

Limited Preference Data? Learning Better Reward Model with Latent Space Synthesis

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册