IDProxy: Cold-Start CTR Prediction for Ads and Recommendation at Xiaohongshu with Multimodal LLMs
作者: Yubin Zhang, Haiming Xu, Guillaume Salha-Galvan, Ruiyan Han, Feiyang Xiao, Yanhua Huang, Li Lin, Yang Luo, Yao Hu
分类: cs.IR, cs.LG
发布日期: 2026-03-02
💡 一句话要点
IDProxy:利用多模态LLM解决小红书广告和推荐中冷启动CTR预测问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 冷启动问题 点击率预测 多模态学习 大型语言模型 代理嵌入 广告推荐 小红书
📋 核心要点
- 传统CTR模型依赖物品ID嵌入,但在新物品冷启动时性能显著下降,无法有效利用物品内容信息。
- IDProxy利用MLLM从物品内容生成代理嵌入,与现有ID嵌入空间对齐,并进行端到端CTR目标优化。
- 离线实验和在线A/B测试验证了IDProxy的有效性,并在小红书的实际推荐系统中成功部署。
📝 摘要(中文)
点击率(CTR)模型在广告和推荐系统中严重依赖物品ID嵌入,这在物品冷启动场景中面临挑战。本文提出了IDProxy,一种利用多模态大型语言模型(MLLM)从丰富的物品内容信号中生成代理嵌入的解决方案,从而为没有使用数据的新物品实现有效的CTR预测。这些代理嵌入与现有的ID嵌入空间显式对齐,并在CTR目标下与排序模型一起进行端到端优化,从而可以无缝集成到现有的大规模排序流程中。离线实验和在线A/B测试表明了IDProxy的有效性,该方案已成功部署在小红书探索Feed的内容Feed和展示广告功能中,每天为数亿用户提供服务。
🔬 方法详解
问题定义:论文旨在解决广告和推荐系统中新物品的冷启动CTR预测问题。现有方法依赖于物品ID嵌入,对于没有历史交互数据的新物品,ID嵌入无法有效学习,导致CTR预测性能显著下降。现有方法难以有效利用物品的多模态内容信息(例如图像、文本描述)来缓解冷启动问题。
核心思路:论文的核心思路是利用多模态大型语言模型(MLLM)从物品的内容信息中生成代理嵌入(IDProxy),作为新物品ID嵌入的替代。通过将代理嵌入与现有物品的ID嵌入空间对齐,使得即使没有历史交互数据,新物品也能获得合理的嵌入表示,从而提升冷启动场景下的CTR预测性能。
技术框架:IDProxy的整体框架包含以下几个主要模块:1) 多模态编码器:利用MLLM提取物品内容的多模态特征。2) 代理嵌入生成器:将多模态特征映射到与现有ID嵌入空间对齐的代理嵌入。3) CTR预测模型:将代理嵌入与用户特征等其他特征结合,预测点击率。4) 训练流程:采用端到端的方式,在CTR预测目标下联合优化多模态编码器、代理嵌入生成器和CTR预测模型。
关键创新:最重要的技术创新点在于利用MLLM生成与现有ID嵌入空间对齐的代理嵌入。与直接使用多模态特征进行CTR预测相比,IDProxy通过代理嵌入的方式,更好地利用了现有ID嵌入的知识,并且可以无缝集成到现有的排序流程中。此外,端到端的训练方式也使得代理嵌入能够更好地适应CTR预测任务。
关键设计:在多模态编码器方面,论文采用了预训练的MLLM模型,例如BLIP-2。在代理嵌入生成器方面,可以使用简单的线性层或更复杂的神经网络。在损失函数方面,除了CTR预测的损失函数(例如交叉熵损失)之外,还可以加入对齐损失,使得代理嵌入与现有ID嵌入空间更加一致。具体的网络结构和参数设置需要根据实际情况进行调整。
🖼️ 关键图片
📊 实验亮点
离线实验表明,IDProxy在冷启动场景下能够显著提升CTR预测的性能,相比于基线模型提升了多个百分点。在线A/B测试也验证了IDProxy的有效性,在小红书的实际推荐系统中,IDProxy成功部署在内容Feed和展示广告功能中,每天为数亿用户提供服务,取得了显著的业务收益。
🎯 应用场景
IDProxy可广泛应用于各种广告和推荐系统,尤其是在需要快速上线新物品的场景下,例如电商平台、内容社区等。该方法能够有效提升新物品的曝光和点击率,从而增加平台收入和用户满意度。未来,可以将IDProxy扩展到更多的模态和更复杂的场景,例如视频推荐、个性化搜索等。
📄 摘要(原文)
Click-through rate (CTR) models in advertising and recommendation systems rely heavily on item ID embeddings, which struggle in item cold-start settings. We present IDProxy, a solution that leverages multimodal large language models (MLLMs) to generate proxy embeddings from rich content signals, enabling effective CTR prediction for new items without usage data. These proxies are explicitly aligned with the existing ID embedding space and are optimized end-to-end under CTR objectives together with the ranking model, allowing seamless integration into existing large-scale ranking pipelines. Offline experiments and online A/B tests demonstrate the effectiveness of IDProxy, which has been successfully deployed in both Content Feed and Display Ads features of Xiaohongshu's Explore Feed, serving hundreds of millions of users daily.