Language, Culture, and Ideology: Personalizing Offensiveness Detection in Political Tweets with Reasoning LLMs
作者: Dzmitry Pihulski, Jan Kocoń
分类: cs.CL, cs.AI
发布日期: 2025-09-27
备注: To appear in the Proceedings of the IEEE International Conference on Data Mining Workshops (ICDMW)
💡 一句话要点
利用推理LLM个性化政治推文冒犯性检测,考虑语言、文化和意识形态因素
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 冒犯性检测 大型语言模型 政治推文 个性化 推理能力 文化差异 意识形态
📋 核心要点
- 现有方法在政治推文冒犯性检测中,难以兼顾语言、文化和意识形态的差异性,导致判断结果缺乏个性化和可解释性。
- 论文提出利用具备推理能力的大型语言模型,通过模拟不同政治和文化视角,实现对政治推文冒犯性的个性化评估。
- 实验结果表明,具有推理能力的较大模型在捕捉意识形态和文化差异方面表现更佳,显著提升了冒犯性判断的个性化和可解释性。
📝 摘要(中文)
本文探讨了大型语言模型(LLM)在被要求采纳特定的政治和文化视角时,如何评估政治言论中的冒犯性。我们使用MD-Agreement数据集的多语种子集,该数据集以2020年美国大选的推文为中心,评估了几种最新的LLM——包括DeepSeek-R1、o4-mini、GPT-4.1-mini、Qwen3、Gemma和Mistral——的任务是从不同政治角色(极右、保守派、中间派、进步派)的视角判断推文是否具有冒犯性,涵盖英语、波兰语和俄语环境。结果表明,具有显式推理能力的较大模型(例如,DeepSeek-R1、o4-mini)对意识形态和文化差异更加一致和敏感,而较小的模型通常无法捕捉到细微的差别。我们发现,推理能力显著提高了冒犯性判断的个性化和可解释性,表明这种机制是使LLM适应跨语言和意识形态的细致的社会政治文本分类的关键。
🔬 方法详解
问题定义:现有政治推文冒犯性检测方法通常忽略了语言、文化和意识形态背景对冒犯性判断的影响,导致模型难以准确捕捉不同人群对同一推文的不同感受。现有方法缺乏个性化和可解释性,难以满足实际应用需求。
核心思路:论文的核心思路是利用大型语言模型(LLM)的推理能力,通过prompting的方式,让LLM模拟不同政治和文化背景的角色,从而对政治推文的冒犯性进行个性化评估。这种方法旨在使模型能够理解不同视角下的冒犯性,并提供可解释的判断依据。
技术框架:整体框架包括以下几个主要步骤:1) 数据集准备:使用MD-Agreement数据集的多语种子集,包含来自2020年美国大选的推文,涵盖英语、波兰语和俄语。2) 模型选择:选择多个LLM进行评估,包括DeepSeek-R1、o4-mini、GPT-4.1-mini、Qwen3、Gemma和Mistral。3) Prompt设计:设计prompt,指示LLM扮演不同的政治角色(极右、保守派、中间派、进步派),并要求其判断推文是否具有冒犯性。4) 评估指标:评估LLM在不同政治角色下的判断一致性和对文化差异的敏感性。
关键创新:论文的关键创新在于利用LLM的推理能力进行个性化的冒犯性检测。通过prompting的方式,让LLM模拟不同政治和文化背景的角色,从而使模型能够理解不同视角下的冒犯性。这种方法不仅提高了冒犯性判断的准确性,还提供了可解释的判断依据。
关键设计:论文的关键设计包括:1) Prompt的设计,需要清晰地定义政治角色的立场和价值观。2) 模型选择,需要选择具有足够推理能力的LLM。3) 评估指标,需要能够衡量模型在不同政治角色下的判断一致性和对文化差异的敏感性。论文没有明确提及损失函数或网络结构等细节,可能使用了LLM自带的损失函数和预训练好的网络结构。
📊 实验亮点
实验结果表明,具有显式推理能力的较大模型(例如,DeepSeek-R1、o4-mini)对意识形态和文化差异更加一致和敏感,而较小的模型通常无法捕捉到细微的差别。推理能力显著提高了冒犯性判断的个性化和可解释性。这些结果表明,推理机制是使LLM适应跨语言和意识形态的细致的社会政治文本分类的关键。
🎯 应用场景
该研究成果可应用于社交媒体平台的内容审核、舆情分析和个性化推荐等领域。通过理解不同政治和文化背景下用户对内容的感受,可以更有效地过滤有害信息,提升用户体验,并促进健康的在线讨论环境。未来,该方法可扩展到其他类型的文本和更广泛的文化背景。
📄 摘要(原文)
We explore how large language models (LLMs) assess offensiveness in political discourse when prompted to adopt specific political and cultural perspectives. Using a multilingual subset of the MD-Agreement dataset centered on tweets from the 2020 US elections, we evaluate several recent LLMs - including DeepSeek-R1, o4-mini, GPT-4.1-mini, Qwen3, Gemma, and Mistral - tasked with judging tweets as offensive or non-offensive from the viewpoints of varied political personas (far-right, conservative, centrist, progressive) across English, Polish, and Russian contexts. Our results show that larger models with explicit reasoning abilities (e.g., DeepSeek-R1, o4-mini) are more consistent and sensitive to ideological and cultural variation, while smaller models often fail to capture subtle distinctions. We find that reasoning capabilities significantly improve both the personalization and interpretability of offensiveness judgments, suggesting that such mechanisms are key to adapting LLMs for nuanced sociopolitical text classification across languages and ideologies.