Multimodal Analysis of State-Funded News Coverage of the Israel-Hamas War on YouTube Shorts
作者: Daniel Miehling, Sandra Kuebler
分类: cs.CL, cs.AI, cs.SI
发布日期: 2026-04-01
💡 一句话要点
提出多模态分析流程,用于剖析YouTube Shorts上国家资助媒体对以色列-哈马斯战争的报道。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态分析 短视频分析 情感分析 语义场景分类 战争报道 YouTube Shorts 国家资助媒体
📋 核心要点
- 现有研究对短视频平台(如YouTube Shorts)上地缘政治事件的呈现方式研究不足,缺乏系统性的分析方法。
- 提出一种多模态分析流程,结合自动转录、基于方面的情感分析和语义场景分类,以分析短视频内容。
- 实验结果表明,该流程能够有效分析国家资助媒体对战争报道的情感倾向和视觉线索,且领域自适应小模型表现优异。
📝 摘要(中文)
本研究针对YouTube Shorts上地缘政治事件的呈现方式研究不足的问题,提出了一种多模态分析流程,该流程结合了自动转录、基于方面的情感分析(ABSA)和语义场景分类。首先评估了该流程的可行性,然后将其应用于分析国家资助媒体对以色列-哈马斯战争的短视频报道。通过超过2300个与冲突相关的短视频和94000多个视觉帧,系统地检查了主要国际广播公司的战争报道。研究结果表明,不同媒体在转录文本中表达的关于特定方面的情感随时间和媒体而异,而场景类型分类反映了与真实世界事件一致的视觉线索。值得注意的是,较小的领域自适应模型在情感分析方面优于大型Transformer模型甚至LLM,突显了资源高效方法在人文研究中的价值。该流程可作为其他短视频平台(如TikTok和Instagram)的模板,并展示了多模态方法与定性解释相结合,如何表征算法驱动的视频环境中的情感模式和视觉线索。
🔬 方法详解
问题定义:该论文旨在解决如何系统性地分析短视频平台(如YouTube Shorts)上,由国家资助媒体发布的关于特定地缘政治事件(如以色列-哈马斯战争)的报道内容。现有方法缺乏对短视频内容的多模态理解,难以捕捉视频中的情感倾向和视觉线索。
核心思路:论文的核心思路是构建一个多模态分析流程,将视频的文本(自动转录)、情感(基于方面的情感分析)和视觉内容(语义场景分类)相结合,从而更全面地理解短视频报道的内容和倾向。通过分析不同媒体在不同方面的情感表达和视觉呈现,揭示其报道策略和潜在偏见。
技术框架:该流程主要包含以下三个模块: 1. 自动转录模块:使用自动语音识别(ASR)技术将短视频的音频内容转换为文本。 2. 基于方面的情感分析(ABSA)模块:对转录文本进行情感分析,识别文本中关于特定方面(例如,受害者、袭击者、地点等)的情感倾向。 3. 语义场景分类模块:对视频帧进行语义场景分类,识别视频中出现的场景类型(例如,街道、建筑物、废墟等)。
关键创新:该论文的关键创新在于: 1. 多模态融合:将文本、情感和视觉信息融合在一起,从而更全面地理解短视频内容。 2. 领域自适应小模型:实验表明,针对特定领域(例如,战争报道)进行自适应训练的小模型,在情感分析方面优于大型Transformer模型甚至LLM,这突显了资源高效方法在人文研究中的价值。
关键设计: 1. ABSA模型选择:论文比较了不同ABSA模型的性能,并选择了适合短视频文本特点的模型。 2. 场景分类模型选择:论文选择了能够有效识别战争相关场景的模型。 3. 数据处理:论文对短视频数据进行了预处理,例如,去除噪声、标准化文本等。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该多模态分析流程能够有效分析短视频报道的情感倾向和视觉线索。值得注意的是,针对战争报道领域进行自适应训练的小型情感分析模型,其性能优于大型Transformer模型和LLM,这表明在特定领域,资源高效的小模型更具优势。该研究使用了超过2300个短视频和94000多个视觉帧进行分析。
🎯 应用场景
该研究提出的多模态分析流程可以应用于分析各种短视频平台(如TikTok、Instagram)上的新闻报道、舆情分析、虚假信息检测等领域。该方法能够帮助研究人员、媒体从业者和政策制定者更好地理解短视频内容,识别潜在的偏见和操纵,从而促进更客观、公正的信息传播。
📄 摘要(原文)
YouTube Shorts have become central to news consumption on the platform, yet research on how geopolitical events are represented in this format remains limited. To address this gap, we present a multimodal pipeline that combines automatic transcription, aspect-based sentiment analysis (ABSA), and semantic scene classification. The pipeline is first assessed for feasibility and then applied to analyze short-form coverage of the Israel-Hamas war by state-funded outlets. Using over 2,300 conflict-related Shorts and more than 94,000 visual frames, we systematically examine war reporting across major international broadcasters. Our findings reveal that the sentiment expressed in transcripts regarding specific aspects differs across outlets and over time, whereas scene-type classifications reflect visual cues consistent with real-world events. Notably, smaller domain-adapted models outperform large transformers and even LLMs for sentiment analysis, underscoring the value of resource-efficient approaches for humanities research. The pipeline serves as a template for other short-form platforms, such as TikTok and Instagram, and demonstrates how multimodal methods, combined with qualitative interpretation, can characterize sentiment patterns and visual cues in algorithmically driven video environments.