Two Stage Context Learning with Large Language Models for Multimodal Stance Detection on Climate Change

📄 arXiv: 2509.08024v1 📥 PDF

作者: Lata Pangtey, Omkar Kabde, Shahid Shafi Dar, Nagendra Kumar

分类: cs.CV, cs.CY

发布日期: 2025-09-09


💡 一句话要点

提出基于大语言模型的双阶段上下文学习框架,用于气候变化多模态立场检测。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 立场检测 大语言模型 Transformer 气候变化 社交媒体分析 图像字幕生成

📋 核心要点

  1. 现有立场检测方法主要依赖文本信息,忽略了社交媒体中普遍存在的视觉信息,导致性能受限。
  2. 该论文提出一种双阶段上下文学习框架,利用大语言模型提取文本摘要,并生成领域相关的图像描述,从而融合多模态信息。
  3. 实验结果表明,该方法在MultiClimate数据集上取得了显著的性能提升,各项指标均优于现有最佳方法。

📝 摘要(中文)

随着数字平台上信息的快速扩散,立场检测已成为社交媒体分析中的一项关键挑战。现有方法大多只关注文本数据,而现实世界的社交媒体内容越来越多地将文本与视觉元素结合,因此需要更先进的多模态方法。为了解决这一差距,我们提出了一种多模态立场检测框架,该框架通过分层融合方法整合文本和视觉信息。我们的方法首先利用大型语言模型从源文本中检索与立场相关的摘要,同时领域感知的图像字幕生成器在目标主题的上下文中解释视觉内容。然后,通过一个专门的Transformer模块,将这些模态与回复文本联合建模,该模块捕获文本和图像之间的交互。所提出的模态融合框架整合了不同的模态,以促进稳健的立场分类。我们在MultiClimate数据集上评估了我们的方法,该数据集是气候变化相关立场检测的基准,包含对齐的视频帧和文本记录。我们分别实现了76.2%的准确率、76.3%的精确率、76.2%的召回率和76.2%的F1分数,优于现有的最先进方法。

🔬 方法详解

问题定义:论文旨在解决气候变化领域社交媒体内容的多模态立场检测问题。现有方法主要依赖文本信息,忽略了图像等视觉信息,无法充分利用多模态数据之间的关联性,导致立场检测的准确率不高。此外,如何有效地融合文本和图像信息也是一个挑战。

核心思路:论文的核心思路是利用大语言模型(LLM)提取文本中的关键信息,并结合领域感知的图像描述生成器来理解图像内容,从而实现文本和图像信息的有效融合。通过双阶段上下文学习,模型能够更好地理解多模态数据之间的关联性,从而提高立场检测的准确率。

技术框架:该方法主要包含以下几个模块:1) 大语言模型(LLM):用于从源文本中提取与立场相关的摘要信息。2) 领域感知的图像字幕生成器:用于在目标主题的上下文中解释视觉内容。3) Transformer模块:用于联合建模文本(包括回复文本和LLM生成的摘要)和图像信息,捕获它们之间的交互。整体流程是先分别处理文本和图像信息,然后将它们融合在一起进行立场分类。

关键创新:该方法最重要的技术创新点在于双阶段上下文学习框架,它利用大语言模型和领域感知的图像字幕生成器来提取文本和图像中的关键信息,从而实现多模态信息的有效融合。与现有方法相比,该方法能够更好地理解多模态数据之间的关联性,从而提高立场检测的准确率。

关键设计:论文中使用了Transformer模块来建模文本和图像之间的交互。具体的参数设置和网络结构细节在论文中没有详细描述,属于未知信息。损失函数也未明确说明,推测可能使用了交叉熵损失函数进行分类任务的训练。

📊 实验亮点

该方法在MultiClimate数据集上取得了显著的性能提升,准确率达到76.2%,精确率达到76.3%,召回率达到76.2%,F1分数达到76.2%,均优于现有的最先进方法。这些结果表明,该方法能够有效地融合文本和图像信息,提高多模态立场检测的准确率。

🎯 应用场景

该研究成果可应用于社交媒体舆情分析、虚假信息检测、公共卫生事件监测等领域。通过准确识别用户对特定事件或话题的立场,可以帮助政府、企业和研究机构更好地了解社会舆论,制定合理的政策和应对措施,并及时发现和处理虚假信息,维护社会稳定。

📄 摘要(原文)

With the rapid proliferation of information across digital platforms, stance detection has emerged as a pivotal challenge in social media analysis. While most of the existing approaches focus solely on textual data, real-world social media content increasingly combines text with visual elements creating a need for advanced multimodal methods. To address this gap, we propose a multimodal stance detection framework that integrates textual and visual information through a hierarchical fusion approach. Our method first employs a Large Language Model to retrieve stance-relevant summaries from source text, while a domain-aware image caption generator interprets visual content in the context of the target topic. These modalities are then jointly modeled along with the reply text, through a specialized transformer module that captures interactions between the texts and images. The proposed modality fusion framework integrates diverse modalities to facilitate robust stance classification. We evaluate our approach on the MultiClimate dataset, a benchmark for climate change-related stance detection containing aligned video frames and transcripts. We achieve accuracy of 76.2%, precision of 76.3%, recall of 76.2% and F1-score of 76.2%, respectively, outperforming existing state-of-the-art approaches.