Debiasing Large Language Models in Thai Political Stance Detection via Counterfactual Calibration

📄 arXiv: 2509.21946v1 📥 PDF

作者: Kasidit Sermsri, Teerapong Panboonyuen

分类: cs.CL, cs.AI

发布日期: 2025-09-26

备注: 9 pages


💡 一句话要点

提出ThaiFACTUAL框架,解决泰语政治立场检测中大语言模型的偏见问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 政治立场检测 大语言模型 偏见消除 反事实数据增强 理由生成 泰语 低资源语言 公平性

📋 核心要点

  1. 现有大语言模型在泰语政治立场检测中存在情感泄露和实体偏袒等偏见,影响公平性和可靠性。
  2. ThaiFACTUAL框架通过反事实数据增强和基于理由的监督,解耦情感和立场,从而减轻政治偏见。
  3. 实验表明,ThaiFACTUAL显著减少了虚假相关性,提升了零样本泛化能力,并提高了模型的公平性。

📝 摘要(中文)

在低资源和文化复杂的环境中,政治立场检测对大型语言模型(LLMs)提出了严峻挑战。在泰国政治环境中,由于语言的间接性、人物的极化以及情感和立场的纠缠,LLMs 经常表现出系统性偏见,例如情感泄露和对实体的偏袒。这些偏见损害了公平性和可靠性。我们提出了 ThaiFACTUAL,这是一个轻量级的、模型无关的校准框架,可在无需微调的情况下减轻政治偏见。ThaiFACTUAL 使用反事实数据增强和基于理由的监督来分离情感和立场,并减少偏见。我们还发布了第一个高质量的泰语政治立场数据集,该数据集标注了跨不同实体和事件的立场、情感、理由和偏见标记。实验结果表明,ThaiFACTUAL 显着减少了虚假相关性,增强了零样本泛化能力,并提高了多个 LLMs 的公平性。这项工作强调了针对代表性不足的语言,进行文化基础的去偏见技术的重要性。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)在泰语政治立场检测中存在的偏见问题。具体来说,由于泰语政治环境的特殊性(例如,间接的语言表达、两极分化的人物以及情感与立场的复杂交织),LLMs容易受到情感泄露和对特定实体的偏袒等偏见的影响。现有方法难以有效消除这些偏见,导致模型在政治立场检测任务中表现不佳,尤其是在零样本场景下。

核心思路:ThaiFACTUAL的核心思路是通过反事实数据增强和基于理由的监督来解耦情感和立场。反事实数据增强旨在生成与原始数据在情感上相反,但在立场上保持一致的数据,从而打破情感与立场之间的虚假相关性。基于理由的监督则通过要求模型提供支持其立场判断的理由,来引导模型关注与立场相关的关键信息,而非情感信息。

技术框架:ThaiFACTUAL框架主要包含两个阶段:反事实数据增强和基于理由的监督。首先,利用反事实数据增强技术生成新的训练数据,这些数据在情感上与原始数据相反,但在立场上保持一致。然后,使用增强后的数据集训练LLM,并引入基于理由的监督机制。具体来说,模型需要预测文本的政治立场,并同时生成支持该立场的理由。通过最小化立场预测和理由生成的损失函数,可以促使模型学习到与立场相关的关键信息,从而减少情感偏见。

关键创新:ThaiFACTUAL的关键创新在于其轻量级和模型无关的设计,以及反事实数据增强和基于理由的监督的结合使用。与需要大量计算资源进行微调的方法不同,ThaiFACTUAL可以在不修改LLM参数的情况下,有效减轻政治偏见。此外,通过同时利用反事实数据增强和基于理由的监督,可以更有效地解耦情感和立场,提高模型的泛化能力和公平性。

关键设计:在反事实数据增强方面,论文采用了一种基于规则的方法来生成反事实数据。具体来说,对于每个原始文本,论文首先识别其中的情感词汇,然后将其替换为具有相反情感的词汇。在基于理由的监督方面,论文使用交叉熵损失函数来衡量立场预测的准确性,并使用序列到序列模型来生成理由。总体的损失函数是立场预测损失和理由生成损失的加权和,权重系数需要根据实验结果进行调整。

📊 实验亮点

实验结果表明,ThaiFACTUAL框架在多个LLMs上均取得了显著的性能提升。例如,在零样本政治立场检测任务中,ThaiFACTUAL能够将模型的准确率提高5-10个百分点,并显著降低了模型对特定实体的偏袒程度。此外,实验还验证了反事实数据增强和基于理由的监督的有效性,证明了它们在解耦情感和立场方面的作用。

🎯 应用场景

该研究成果可应用于舆情监控、政治观点分析、虚假信息检测等领域。通过消除大语言模型中的政治偏见,可以提高相关应用系统的公平性和可靠性,从而为社会治理和决策提供更准确的信息支持。未来,该方法可以推广到其他低资源语言和文化背景下,解决类似的偏见问题。

📄 摘要(原文)

Political stance detection in low-resource and culturally complex settings poses a critical challenge for large language models (LLMs). In the Thai political landscape - marked by indirect language, polarized figures, and entangled sentiment and stance - LLMs often display systematic biases such as sentiment leakage and favoritism toward entities. These biases undermine fairness and reliability. We present ThaiFACTUAL, a lightweight, model-agnostic calibration framework that mitigates political bias without requiring fine-tuning. ThaiFACTUAL uses counterfactual data augmentation and rationale-based supervision to disentangle sentiment from stance and reduce bias. We also release the first high-quality Thai political stance dataset, annotated with stance, sentiment, rationales, and bias markers across diverse entities and events. Experimental results show that ThaiFACTUAL significantly reduces spurious correlations, enhances zero-shot generalization, and improves fairness across multiple LLMs. This work highlights the importance of culturally grounded debiasing techniques for underrepresented languages.