LLM-based Fusion of Multi-modal Features for Commercial Memorability Prediction

作者: Aleksandar Pramov

分类: cs.CV, cs.AI, cs.MM

发布日期: 2025-10-26

🔗 代码/项目: GITHUB

💡 一句话要点

提出基于LLM的多模态融合方法，用于提升商业广告记忆度预测的鲁棒性和泛化性。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 商业广告记忆度预测 多模态融合 大型语言模型 理由提示 Low-Rank Adaptation

📋 核心要点

现有商业广告记忆度预测方法在鲁棒性和泛化性方面存在不足，难以适应复杂多变的数据。
利用LLM强大的理解和推理能力，结合视觉和文本特征，并通过理由提示引导模型学习。
实验结果表明，基于LLM的系统在鲁棒性和泛化性方面优于传统梯度提升树模型。

📝 摘要（中文）

本文针对MediaEval 2025 workshop竞赛中“记忆度：预测电影和商业广告的记忆度”任务的“子任务2：商业/广告记忆度预测”问题，提出了一种基于Gemma-3 LLM的多模态融合系统。该系统通过多模态投影整合了预先计算的视觉（ViT）和文本（E5）特征。模型采用Low-Rank Adaptation (LoRA)进行适配。一个经过大量调优的梯度提升树集成模型作为基线。一个关键贡献是使用LLM生成的、基于专家导出的记忆度方面的理由提示来指导融合模型。结果表明，与基线相比，基于LLM的系统在最终测试集上表现出更强的鲁棒性和泛化性能。

🔬 方法详解

问题定义：论文旨在解决商业广告记忆度预测问题，即预测一段商业广告被观众记住的可能性。现有方法可能依赖于手工设计的特征或浅层模型，难以捕捉广告内容中的复杂语义信息，导致鲁棒性和泛化性较差。

核心思路：论文的核心思路是利用大型语言模型（LLM）强大的语义理解和推理能力，将视觉和文本特征融合，并通过LLM生成的理由提示（rationale prompts）来引导模型学习。这种方法旨在使模型能够更好地理解广告内容与记忆度之间的关系，从而提高预测的准确性和鲁棒性。

技术框架：整体框架包含以下几个主要模块：1) 特征提取：使用预训练的ViT模型提取视觉特征，使用E5模型提取文本特征。2) 多模态投影：将视觉和文本特征投影到同一语义空间。3) LLM融合：使用Gemma-3 LLM作为骨干网络，融合多模态特征。4) 理由提示：使用LLM生成基于专家知识的理由提示，引导模型学习。5) LoRA适配：使用Low-Rank Adaptation (LoRA)对LLM进行微调，以适应特定任务。

关键创新：最重要的技术创新点在于使用LLM生成的理由提示来指导多模态融合模型。与传统的特征融合方法相比，这种方法能够利用LLM的知识和推理能力，使模型更好地理解广告内容与记忆度之间的关系。此外，使用LoRA进行微调可以有效地降低计算成本，并防止过拟合。

关键设计：理由提示的设计是关键。论文利用专家知识，构建了一系列与记忆度相关的提示，例如“这个广告是否使用了幽默？”、“这个广告是否具有情感冲击力？”等。这些提示被输入到LLM中，生成相应的理由，然后与视觉和文本特征一起输入到融合模型中。LoRA的秩（rank）是一个重要的超参数，需要根据具体任务进行调整。

📊 实验亮点

实验结果表明，基于LLM的多模态融合系统在商业广告记忆度预测任务上取得了显著的性能提升。与经过大量调优的梯度提升树基线模型相比，该系统在最终测试集上表现出更强的鲁棒性和泛化性能。具体的性能数据（例如，准确率、召回率等）未知，但摘要强调了其优于基线。

🎯 应用场景

该研究成果可应用于广告效果评估、广告内容优化、以及个性化广告推荐等领域。通过预测广告的记忆度，可以帮助广告主更好地了解广告效果，优化广告内容，提高广告投放的效率。此外，该技术还可以用于个性化广告推荐，根据用户的兴趣和偏好，推荐更易于被记住的广告。

📄 摘要（原文）

This paper addresses the prediction of commercial (brand) memorability as part of "Subtask 2: Commercial/Ad Memorability" within the "Memorability: Predicting movie and commercial memorability" task at the MediaEval 2025 workshop competition. We propose a multimodal fusion system with a Gemma-3 LLM backbone that integrates pre-computed visual (ViT) and textual (E5) features by multi-modal projections. The model is adapted using Low-Rank Adaptation (LoRA). A heavily-tuned ensemble of gradient boosted trees serves as a baseline. A key contribution is the use of LLM-generated rationale prompts, grounded in expert-derived aspects of memorability, to guide the fusion model. The results demonstrate that the LLM-based system exhibits greater robustness and generalization performance on the final test set, compared to the baseline. The paper's codebase can be found at https://github.com/dsgt-arc/mediaeval-2025-memorability

LLM-based Fusion of Multi-modal Features for Commercial Memorability Prediction

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册