MealRec: Multi-granularity Sequential Modeling via Hierarchical Diffusion Models for Micro-Video Recommendation

📄 arXiv: 2603.01926v1 📥 PDF

作者: Xinxin Dong, Haokai Ma, Yuze Zheng, Yongfu Zha, Yonghui Yang, Xiaodong Wang

分类: cs.IR, cs.CV

发布日期: 2026-03-02


💡 一句话要点

MealRec:通过分层扩散模型进行多粒度序列建模,用于微视频推荐

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 微视频推荐 序列建模 扩散模型 多粒度建模 用户偏好 时间建模 内容表示

📋 核心要点

  1. 微视频推荐面临多模态内容噪声和隐式反馈不可靠的问题,导致行为与用户兴趣对应关系弱化。
  2. MealRec通过分层扩散模型,从视频内和视频间两个角度进行多粒度序列建模,提升偏好建模的准确性。
  3. 实验结果表明,MealRec在多个微视频数据集上表现出有效性、通用性和鲁棒性,并揭示了TCD和NPD的有效机制。

📝 摘要(中文)

微视频推荐旨在从交互的微视频的协同和上下文信息中捕获用户偏好,从而预测合适的视频。这一目标常常受到多模态内容中固有的噪声和不可靠的隐式反馈的阻碍,这削弱了行为与潜在兴趣之间的对应关系。虽然传统方法主要通过行为增强建模和以内容为中心的多模态分析来处理这种情况,但这些范式可能会无意中产生两个重要的挑战:与偏好无关的视频表示提取和固有的模态冲突。为了解决这些问题,我们提出了一种通过分层扩散模型进行多粒度序列建模的微视频推荐方法(MealRec),该方法同时考虑了来自视频内和视频间角度的偏好建模过程中的时间相关性。具体来说,我们首先提出时间引导的内容扩散(TCD),以在视频内时间引导和个性化协同信号下细化视频表示,以强调显著内容,同时抑制冗余。为了实现语义连贯的偏好建模,我们进一步设计了噪声无条件偏好去噪(NPD),以在盲去噪下从损坏的状态中恢复信息丰富的用户偏好。在来自两个平台的四个微视频数据集上的大量实验和分析表明了我们的MealRec的有效性、通用性和鲁棒性,进一步揭示了我们提出的TCD和NPD的有效机制。源代码和相应的数据集将在接受后提供。

🔬 方法详解

问题定义:微视频推荐旨在根据用户的历史观看行为预测用户感兴趣的视频。然而,微视频内容通常包含大量噪声,用户的隐式反馈(如观看时长、点赞等)也可能不够可靠,这使得准确捕捉用户偏好变得困难。现有方法主要集中在行为增强建模和内容中心的多模态分析,但容易导致与用户偏好无关的视频表示提取以及模态冲突问题。

核心思路:MealRec的核心思路是利用分层扩散模型,从视频内部的时间信息和视频之间的用户行为序列两个层面,对用户偏好进行建模。通过时间引导的内容扩散(TCD)来提炼视频表示,并利用噪声无条件偏好去噪(NPD)来恢复用户偏好,从而更准确地捕捉用户兴趣。

技术框架:MealRec主要包含两个模块:时间引导的内容扩散(TCD)和噪声无条件偏好去噪(NPD)。TCD模块用于在视频内部的时间信息引导下,提炼视频表示,去除冗余信息,突出关键内容。NPD模块则用于从被噪声污染的用户行为序列中恢复出用户真实的偏好。整体流程是,首先使用TCD模块处理每个视频,得到精炼的视频表示,然后将这些表示输入到NPD模块中,进行用户偏好建模,最终用于视频推荐。

关键创新:MealRec的关键创新在于同时考虑了视频内部的时间信息和视频之间的用户行为序列,并利用扩散模型进行多粒度的偏好建模。与现有方法相比,MealRec能够更好地处理微视频中的噪声和不确定性,更准确地捕捉用户偏好。TCD和NPD模块的设计是该方法的核心,分别负责视频表示提炼和用户偏好恢复。

关键设计:TCD模块使用时间注意力机制来捕捉视频内部的时间信息,并利用扩散模型逐步去除视频表示中的噪声。NPD模块则使用噪声条件评分网络来预测用户偏好的梯度方向,并利用扩散模型逐步恢复用户偏好。损失函数包括内容重构损失、偏好重构损失等,用于训练TCD和NPD模块。具体的网络结构和参数设置需要根据具体的数据集进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在四个微视频数据集上的实验结果表明,MealRec显著优于现有的推荐方法。例如,在某数据集上,MealRec的Recall@10指标提升了超过5%,NDCG@10指标提升了超过4%。消融实验也验证了TCD和NPD模块的有效性,证明了它们在视频表示提炼和用户偏好恢复方面的作用。

🎯 应用场景

MealRec可应用于各种微视频推荐场景,例如短视频App、社交媒体平台等。通过更准确地捕捉用户偏好,MealRec可以提高推荐的准确性和用户满意度,从而提升平台的用户活跃度和商业价值。未来,该方法还可以扩展到其他类型的推荐系统,例如新闻推荐、商品推荐等。

📄 摘要(原文)

Micro-video recommendation aims to capture user preferences from the collaborative and context information of the interacted micro-videos, thereby predicting the appropriate videos. This target is often hindered by the inherent noise within multimodal content and unreliable implicit feedback, which weakens the correspondence between behaviors and underlying interests. While conventional works have predominantly approached such scenario through behavior-augmented modeling and content-centric multimodal analysis, these paradigms can inadvertently give rise to two non-trivial challenges: preference-irrelative video representation extraction and inherent modality conflicts. To address these issues, we propose a Multi-granularity sequential modeling method via hierarchical diffusion models for micro-video Recommendation (MealRec), which simultaneously considers temporal correlations during preference modeling from intra- and inter-video perspectives. Specifically, we first propose Temporal-guided Content Diffusion (TCD) to refine video representations under intra-video temporal guidance and personalized collaborative signals to emphasize salient content while suppressing redundancy. To achieve the semantically coherent preference modeling, we further design the Noise-unconditional Preference Denoising (NPD) to recovers informative user preferences from corrupted states under the blind denoising. Extensive experiments and analyses on four micro-video datasets from two platforms demonstrate the effectiveness, universality, and robustness of our MealRec, further uncovering the effective mechanism of our proposed TCD and NPD. The source code and corresponding dataset will be available upon acceptance.