Decoupled Entity Representation Learning for Pinterest Ads Ranking
作者: Jie Liu, Yinrui Li, Jiankai Sun, Kungang Li, Han Sun, Sihan Wang, Huasen Wu, Siyuan Gao, Paulo Soares, Nan Li, Zhifang Liu, Haoyang Li, Siping Ji, Ling Leng, Prathibha Deshikachar
分类: cs.IR, cs.AI, cs.LG
发布日期: 2025-09-04
💡 一句话要点
提出解耦实体表示学习框架,提升Pinterest广告排序效果
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 广告排序 推荐系统 实体表示学习 解耦学习 深度学习
📋 核心要点
- 现有方法难以有效利用Pinterest上用户和Pin之间复杂关系,导致个性化推荐效果受限。
- 采用解耦的上下游框架,上游模型学习用户和Pin的实体嵌入,下游模型利用这些嵌入进行广告排序。
- 实验表明,该框架在离线和在线环境中均显著提升了广告排序性能,并已成功部署到生产系统。
📝 摘要(中文)
本文介绍了一种新颖的上下游范式框架,用于构建用户和商品(Pin)的嵌入表示,这对于Pinterest有效提供个性化的Pins和广告至关重要。我们的上游模型在包含各种信号的广泛数据源上进行训练,利用复杂的架构来捕获Pinterest上用户和Pins之间错综复杂的关系。为了确保上游模型的可扩展性,我们学习实体嵌入并定期刷新,而不是实时计算,从而允许上游和下游模型之间的异步交互。这些嵌入随后被整合为众多下游任务(包括广告检索和CTR/CVR预测的排序模型)的输入特征。我们证明了我们的框架在各种下游任务的离线和在线环境中都取得了显著的性能提升。该框架已部署在Pinterest的生产广告排序系统中,从而在在线指标方面获得了显著收益。
🔬 方法详解
问题定义:Pinterest广告排序旨在为用户推荐最相关的广告,从而提高点击率(CTR)和转化率(CVR)。现有方法可能难以充分利用用户和Pin之间复杂的关系,以及各种异构数据源的信息,导致个性化推荐效果不佳。此外,实时计算用户和Pin的表示会带来巨大的计算开销,难以满足在线广告排序的低延迟要求。
核心思路:本文的核心思路是将用户和Pin的表示学习与广告排序任务解耦。首先,利用上游模型学习高质量的用户和Pin的实体嵌入,这些嵌入捕捉了用户和Pin之间的复杂关系。然后,将这些嵌入作为下游广告排序模型的输入特征,从而提高排序模型的性能。这种解耦的设计允许上游模型专注于学习高质量的实体表示,而下游模型专注于利用这些表示进行排序,从而简化了模型的训练和部署。
技术框架:整体框架采用上下游范式。上游模型负责学习用户和Pin的实体嵌入,下游模型负责利用这些嵌入进行广告排序。上游模型使用各种数据源(例如,用户行为数据、Pin的内容数据等)进行训练,并采用复杂的神经网络架构来捕捉用户和Pin之间的复杂关系。为了确保可扩展性,实体嵌入是离线学习并定期刷新的。下游模型将上游模型学习到的实体嵌入作为输入特征,并使用CTR和CVR预测模型进行广告排序。
关键创新:最重要的技术创新点在于解耦的实体表示学习框架。与传统的端到端训练方法不同,该框架将实体表示学习与广告排序任务分离,从而简化了模型的训练和部署。此外,该框架允许上游模型专注于学习高质量的实体表示,而下游模型专注于利用这些表示进行排序,从而提高了模型的性能。
关键设计:上游模型采用复杂的神经网络架构,例如,Transformer网络,来捕捉用户和Pin之间的复杂关系。损失函数的设计旨在最大化用户和Pin之间的相关性。下游模型采用CTR和CVR预测模型,例如,深度学习模型,来预测用户点击和转化广告的概率。关键参数的设置,例如,嵌入维度、学习率等,需要根据具体的数据集和任务进行调整。
📊 实验亮点
该框架在Pinterest的生产广告排序系统中进行了部署,并在在线指标方面取得了显著的收益。具体而言,该框架在CTR和CVR方面均取得了显著的提升,表明其能够有效地提高广告排序的准确性。此外,该框架还提高了广告收入,证明其具有很高的商业价值。具体提升幅度未知,但摘要中明确指出是“significant gains”。
🎯 应用场景
该研究成果可广泛应用于推荐系统、广告排序、搜索等领域。通过学习高质量的实体表示,可以提升个性化推荐和排序的准确性,从而提高用户体验和商业价值。该框架已成功应用于Pinterest的广告排序系统,并取得了显著的在线指标提升,表明其具有很高的实际应用价值。
📄 摘要(原文)
In this paper, we introduce a novel framework following an upstream-downstream paradigm to construct user and item (Pin) embeddings from diverse data sources, which are essential for Pinterest to deliver personalized Pins and ads effectively. Our upstream models are trained on extensive data sources featuring varied signals, utilizing complex architectures to capture intricate relationships between users and Pins on Pinterest. To ensure scalability of the upstream models, entity embeddings are learned, and regularly refreshed, rather than real-time computation, allowing for asynchronous interaction between the upstream and downstream models. These embeddings are then integrated as input features in numerous downstream tasks, including ad retrieval and ranking models for CTR and CVR predictions. We demonstrate that our framework achieves notable performance improvements in both offline and online settings across various downstream tasks. This framework has been deployed in Pinterest's production ad ranking systems, resulting in significant gains in online metrics.