TriSPrompt: A Hierarchical Soft Prompt Model for Multimodal Rumor Detection with Incomplete Modalities
作者: Jiajun Chen, Yangyang Wu, Xiaoye Miao, Mengying Zhu, Meng Xi
分类: cs.CL, cs.AI
发布日期: 2025-09-18
💡 一句话要点
提出TriSPrompt,解决多模态谣言检测中模态缺失问题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态谣言检测 模态缺失 软提示学习 分层模型 自然语言处理
📋 核心要点
- 现有方法难以处理多模态谣言检测中常见的模态缺失问题,导致性能显著下降。
- TriSPrompt通过引入模态感知、模态缺失和互视图三种提示,增强模型对不完整数据的适应性。
- 实验表明,TriSPrompt在三个真实数据集上优于现有方法,准确率提升超过13%。
📝 摘要(中文)
多模态数据中普遍存在的模态不完整性对实现准确的谣言检测构成了重大挑战。现有的多模态谣言检测方法主要集中于从完整的多模态训练数据中学习联合模态表示,这使得它们在解决现实场景中常见的模态缺失问题时效果不佳。在本文中,我们提出了一种分层软提示模型 extsf{TriSPrompt},它集成了三种类型的提示,即模态感知(MA)提示、模态缺失(MM)提示和互视图(MV)提示,以有效地检测不完整多模态数据中的谣言。MA提示捕获来自特定模态的异构信息和来自可用数据的同构特征,有助于模态恢复。MM提示模拟不完整数据中的缺失状态,增强模型对缺失信息的适应性。MV提示学习主观(即文本和图像)和客观(即评论)视角之间的关系,有效地检测谣言。在三个真实世界基准上的大量实验表明,与最先进的方法相比, extsf{TriSPrompt}实现了超过13%的准确率提升。代码和数据集可在 https://anonymous.4open.science/r/code-3E88 获取。
🔬 方法详解
问题定义:现有的多模态谣言检测方法通常假设训练数据是完整的,即所有模态的数据都存在。然而,在现实世界中,由于各种原因(例如,图像丢失、评论缺失),多模态数据经常出现模态缺失的情况。当训练数据和测试数据存在差异时,现有方法的性能会显著下降。因此,如何有效地处理模态缺失问题,提高多模态谣言检测的鲁棒性,是一个重要的研究问题。
核心思路:TriSPrompt的核心思路是利用软提示(soft prompt)来引导模型学习不同模态之间的关系,并显式地建模模态缺失的状态。通过引入模态感知(MA)提示、模态缺失(MM)提示和互视图(MV)提示,模型可以更好地理解和利用不完整的多模态数据。这种设计使得模型能够从可用的模态中提取信息,并推断缺失模态的潜在信息,从而提高谣言检测的准确性。
技术框架:TriSPrompt的整体框架包含三个主要的模块:模态感知(MA)提示模块、模态缺失(MM)提示模块和互视图(MV)提示模块。首先,MA提示模块负责从每个可用的模态中提取特征,并学习模态之间的关系。其次,MM提示模块显式地建模模态缺失的状态,并学习如何处理缺失信息。最后,MV提示模块学习主观视角(文本和图像)和客观视角(评论)之间的关系,从而更全面地理解谣言的传播过程。这三个模块共同作用,使得模型能够有效地检测不完整多模态数据中的谣言。
关键创新:TriSPrompt的关键创新在于其分层软提示的设计。与传统的硬编码方法不同,软提示可以通过学习来适应不同的数据分布和任务需求。此外,TriSPrompt通过引入三种不同类型的提示,分别从模态感知、模态缺失和互视图的角度来建模多模态数据,从而更全面地理解谣言的特征。这种分层的设计使得模型能够更好地处理模态缺失问题,并提高谣言检测的准确性。
关键设计:在TriSPrompt中,每个提示模块都包含一个可学习的参数矩阵,用于引导模型的学习过程。MA提示模块使用Transformer网络来提取模态特征,并学习模态之间的关系。MM提示模块使用一个二元向量来表示每个模态的缺失状态,并将其作为模型的输入。MV提示模块使用注意力机制来学习主观视角和客观视角之间的关系。损失函数包括分类损失和正则化损失,用于优化模型的参数。
📊 实验亮点
TriSPrompt在三个真实世界的谣言检测数据集上进行了评估,包括Twitter15、Twitter17和Weibo。实验结果表明,TriSPrompt显著优于现有的最先进方法,准确率提升超过13%。消融实验验证了每个提示模块的有效性,表明它们共同促进了模型的性能提升。
🎯 应用场景
该研究成果可应用于社交媒体平台、新闻网站等场景,帮助自动检测和识别谣言信息,减少虚假信息传播,维护网络空间安全。此外,该方法在处理其他模态缺失的多模态任务中也具有潜力,例如视频理解、医学诊断等。
📄 摘要(原文)
The widespread presence of incomplete modalities in multimodal data poses a significant challenge to achieving accurate rumor detection. Existing multimodal rumor detection methods primarily focus on learning joint modality representations from \emph{complete} multimodal training data, rendering them ineffective in addressing the common occurrence of \emph{missing modalities} in real-world scenarios. In this paper, we propose a hierarchical soft prompt model \textsf{TriSPrompt}, which integrates three types of prompts, \textit{i.e.}, \emph{modality-aware} (MA) prompt, \emph{modality-missing} (MM) prompt, and \emph{mutual-views} (MV) prompt, to effectively detect rumors in incomplete multimodal data. The MA prompt captures both heterogeneous information from specific modalities and homogeneous features from available data, aiding in modality recovery. The MM prompt models missing states in incomplete data, enhancing the model's adaptability to missing information. The MV prompt learns relationships between subjective (\textit{i.e.}, text and image) and objective (\textit{i.e.}, comments) perspectives, effectively detecting rumors. Extensive experiments on three real-world benchmarks demonstrate that \textsf{TriSPrompt} achieves an accuracy gain of over 13\% compared to state-of-the-art methods. The codes and datasets are available at https: //anonymous.4open.science/r/code-3E88.