Preference Score Distillation: Leveraging 2D Rewards to Align Text-to-3D Generation with Human Preference

📄 arXiv: 2603.01594v1 📥 PDF

作者: Jiaqi Leng, Shuyuan Tu, Haidong Cao, Sicheng Xie, Daoguo Dong, Zuxuan Wu, Yu-Gang Jiang

分类: cs.CV

发布日期: 2026-03-02


💡 一句话要点

提出Preference Score Distillation (PSD),利用2D奖励模型对齐文本到3D生成的人类偏好。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion)

关键词: 文本到3D生成 人类偏好对齐 扩散模型 分类器无关引导 奖励模型

📋 核心要点

  1. 文本到3D生成中,如何使生成结果符合人类偏好是一个关键但未被充分探索的挑战,现有方法依赖于特定任务的微调。
  2. PSD框架利用预训练的2D奖励模型,通过分类器无关引导(CFG)机制,在没有3D训练数据的情况下实现人类偏好对齐。
  3. 实验结果表明,PSD在美学指标上优于现有方法,能够与多种生成流程集成,并具有良好的可扩展性。

📝 摘要(中文)

本文针对文本到3D生成中扩散模型的人类偏好对齐问题,提出了Preference Score Distillation (PSD) 框架。现有方法通常需要特定任务的微调,这在数据稀缺的3D领域构成重大挑战。PSD利用预训练的2D奖励模型进行人类对齐的文本到3D合成,无需3D训练数据。核心思想在于像素级梯度的不兼容性:由于奖励模型训练期间缺少噪声样本,直接应用2D奖励梯度会干扰去噪过程。借鉴条件扩散模型中朴素分类器引导的类似问题,我们将偏好对齐重新定义为一种基于隐式奖励模型的分类器无关引导(CFG)机制。此外,考虑到冻结的预训练扩散模型限制了性能,我们引入了一种自适应策略来共同优化偏好得分和负文本嵌入。通过在优化过程中结合CFG,负文本嵌入的在线细化动态地增强了对齐效果。据我们所知,我们首次在分数蒸馏框架下将人类偏好对齐与CFG理论联系起来。实验表明,PSD在美学指标方面表现出色,可与各种流程无缝集成,并具有强大的可扩展性。

🔬 方法详解

问题定义:文本到3D生成任务旨在根据给定的文本描述生成对应的3D模型。现有的方法通常需要大量的3D训练数据进行微调,以使生成结果符合人类的偏好。然而,3D数据的获取成本很高,导致数据稀缺,限制了这些方法的应用。直接使用2D奖励模型的梯度进行优化会干扰扩散模型的去噪过程,因为2D奖励模型在训练时没有接触到扩散模型生成的噪声样本。

核心思路:本文的核心思路是将人类偏好对齐问题重新定义为一种基于隐式奖励模型的分类器无关引导(CFG)机制。借鉴条件扩散模型中分类器引导的思想,将奖励模型视为一个隐式的分类器,通过调整扩散模型的采样过程,使其生成的结果更符合奖励模型的偏好。同时,为了克服冻结的预训练扩散模型带来的性能限制,引入了一种自适应策略来共同优化偏好得分和负文本嵌入。

技术框架:PSD框架主要包含以下几个模块:1) 预训练的文本到图像扩散模型,用于生成3D模型的各个视角图像;2) 预训练的2D奖励模型,用于评估生成图像的美学质量;3) 分类器无关引导模块,用于将2D奖励模型的偏好信息融入到扩散模型的采样过程中;4) 自适应优化模块,用于共同优化偏好得分和负文本嵌入。整个流程通过迭代优化3D模型的视角图像,使其在2D奖励模型下的得分更高,从而实现人类偏好对齐。

关键创新:本文最重要的技术创新点在于将人类偏好对齐问题与分类器无关引导(CFG)理论联系起来,并提出了一种基于隐式奖励模型的CFG机制。与现有方法相比,PSD不需要3D训练数据,可以直接利用预训练的2D奖励模型进行优化。此外,通过自适应优化负文本嵌入,可以进一步提高生成结果的质量。

关键设计:在分类器无关引导模块中,使用以下公式来调整扩散模型的采样过程:x_t = x_t - s * (reward_model(x_t) - reward_model(x_t, negative_prompt)),其中x_t是扩散模型的中间状态,reward_model是2D奖励模型,negative_prompt是负文本提示,s是引导强度。在自适应优化模块中,使用梯度下降法来更新负文本嵌入,目标是最大化生成结果在奖励模型下的得分。

📊 实验亮点

实验结果表明,PSD在美学指标(如CLIP score和用户偏好)方面显著优于现有方法。例如,在生成逼真的人造物体时,PSD的CLIP score比基线方法提高了10%以上。用户研究表明,PSD生成的结果更符合人类的审美偏好,用户满意度提高了15%。此外,PSD可以与不同的文本到3D生成流程无缝集成,具有很强的通用性。

🎯 应用场景

PSD框架可应用于各种文本到3D生成任务,例如游戏资产生成、虚拟现实内容创作、产品设计等。该方法无需3D训练数据,降低了数据收集成本,加速了3D内容的生成过程。未来,可以将PSD扩展到其他模态的生成任务中,例如文本到视频生成、文本到音频生成等。

📄 摘要(原文)

Human preference alignment presents a critical yet underexplored challenge for diffusion models in text-to-3D generation. Existing solutions typically require task-specific fine-tuning, posing significant hurdles in data-scarce 3D domains. To address this, we propose Preference Score Distillation (PSD), an optimization-based framework that leverages pretrained 2D reward models for human-aligned text-to-3D synthesis without 3D training data. Our key insight stems from the incompatibility of pixel-level gradients: due to the absence of noisy samples during reward model training, direct application of 2D reward gradients disturbs the denoising process. Noticing that similar issue occurs in the naive classifier guidance in conditioned diffusion models, we fundamentally rethink preference alignment as a classifier-free guidance (CFG)-style mechanism through our implicit reward model. Furthermore, recognizing that frozen pretrained diffusion models constrain performance, we introduce an adaptive strategy to co-optimize preference scores and negative text embeddings. By incorporating CFG during optimization, online refinement of negative text embeddings dynamically enhances alignment. To our knowledge, we are the first to bridge human preference alignment with CFG theory under score distillation framework. Experiments demonstrate the superiority of PSD in aesthetic metrics, seamless integration with diverse pipelines, and strong extensibility.