UstanceBR: a social media language resource for stance prediction

📄 arXiv: 2312.06374v4 📥 PDF

作者: Camila Pereira, Matheus Pavan, Sungwon Yoon, Ricelli Ramos, Pablo Costa, Lais Cavalheiro, Ivandre Paraboni

分类: cs.CL

发布日期: 2023-12-11 (更新: 2024-11-11)


💡 一句话要点

发布UstanceBR:一个用于立场预测的巴西葡萄牙语社交媒体语言资源。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 立场预测 社交媒体 巴西葡萄牙语 多模态数据 语料库构建

📋 核心要点

  1. 现有的立场预测方法在巴西葡萄牙语社交媒体领域缺乏大规模、多模态的标注数据集,限制了模型在该领域的性能。
  2. UstanceBR语料库通过收集和标注巴西葡萄牙语Twitter数据,并结合用户网络信息,为目标导向的立场预测提供了新的数据资源。
  3. 论文展示了基于UstanceBR语料库的领域内和零样本立场预测的初步实验结果,为未来研究提供了基线性能参考。

📝 摘要(中文)

本文介绍了UstanceBR,一个用于目标导向立场预测的巴西葡萄牙语Twitter领域的多模态语料库。该语料库包含86.8k个针对选定目标主题的已标注立场,以及发布这些立场的用户在社交媒体上的大量网络信息。本文描述了语料库的多模态数据,以及基于文本和网络相关信息的领域内和零样本立场预测中的一些使用示例,旨在为该领域未来的研究提供初步的基线结果。

🔬 方法详解

问题定义:论文旨在解决巴西葡萄牙语社交媒体中目标导向的立场预测问题。现有方法缺乏针对该语言和社交媒体平台的标注数据,难以有效进行立场预测。此外,现有方法较少考虑社交网络结构信息,而这些信息可能蕴含着用户的立场倾向。

核心思路:论文的核心思路是构建一个大规模的、多模态的巴西葡萄牙语Twitter语料库UstanceBR,该语料库不仅包含文本信息,还包含用户的社交网络信息。通过利用这些多模态信息,可以更准确地预测用户对特定目标的立场。

技术框架:UstanceBR语料库的构建主要包括数据收集、标注和预处理三个阶段。数据收集阶段从Twitter上抓取巴西葡萄牙语的推文,并选择特定主题作为目标。标注阶段对推文进行立场标注,确定用户对目标的立场(例如:支持、反对、中立)。预处理阶段对文本数据进行清洗和规范化,并提取用户的社交网络信息。论文还展示了基于该语料库的立场预测实验,使用了文本特征和网络特征作为输入。

关键创新:该论文的关键创新在于构建了一个大规模的、多模态的巴西葡萄牙语Twitter立场预测语料库UstanceBR。该语料库的独特性在于其包含了丰富的社交网络信息,这为研究社交网络结构与用户立场之间的关系提供了可能。

关键设计:语料库包含86.8k个已标注的立场。网络信息包括用户之间的关注关系、转发关系等。立场标注采用人工标注的方式,保证了标注的准确性。实验中,使用了常见的文本特征(例如:词袋模型、TF-IDF)和网络特征(例如:PageRank、社区检测)作为输入,并使用了常见的分类算法(例如:支持向量机、逻辑回归)进行立场预测。

📊 实验亮点

论文构建的UstanceBR语料库是巴西葡萄牙语社交媒体立场预测领域的重要资源。初步实验结果表明,基于文本和网络信息的立场预测模型在该语料库上取得了较好的性能。论文还展示了零样本立场预测的实验结果,为跨领域立场预测研究提供了新的思路。

🎯 应用场景

该研究成果可应用于舆情分析、政治观点挖掘、市场营销等领域。通过分析社交媒体用户的立场,可以了解公众对特定事件或产品的态度,为政府决策、企业营销提供参考。未来,该语料库可以用于训练更强大的立场预测模型,提升相关应用的效果。

📄 摘要(原文)

This work introduces UstanceBR, a multimodal corpus in the Brazilian Portuguese Twitter domain for target-based stance prediction. The corpus comprises 86.8 k labelled stances towards selected target topics, and extensive network information about the users who published these stances on social media. In this article we describe the corpus multimodal data, and a number of usage examples in both in-domain and zero-shot stance prediction based on text- and network-related information, which are intended to provide initial baseline results for future studies in the field.