Clustering Discourses: Racial Biases in Short Stories about Women Generated by Large Language Models

📄 arXiv: 2509.02834v1 📥 PDF

作者: Gustavo Bonil, João Gondim, Marina dos Santos, Simone Hashiguti, Helena Maia, Nadia Silva, Helio Pedrini, Sandra Avila

分类: cs.CL, cs.AI

发布日期: 2025-09-02

备注: 12 pages, 3 figures. Accepted at STIL @ BRACIS 2025


💡 一句话要点

揭示LLaMA 3.2-3B生成短篇小说中关于黑人和白人女性的种族偏见

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 种族偏见 文本聚类 定性分析 社会公平 LLaMA 自然语言处理

📋 核心要点

  1. 大型语言模型在生成文本时可能无意中强化社会偏见,尤其是在涉及种族和性别等敏感话题时。
  2. 该研究结合机器学习方法和定性分析,揭示LLaMA 3.2-3B在生成关于黑人和白人女性的短篇小说时存在的种族偏见。
  3. 通过对生成文本的聚类和分析,识别出三种主要的论述表征,揭示了模型如何固化殖民地结构化的女性身体框架。

📝 摘要(中文)

本研究调查了大型语言模型,特别是LLaMA 3.2-3B,在用葡萄牙语生成的短篇小说中如何构建关于黑人和白人女性的叙事。 从2100篇文本中,我们应用计算方法对语义相似的故事进行分组,从而进行定性分析的选择。 出现了三种主要的论述表征:社会克服、祖先神话化和主观自我实现。 分析揭示了语法连贯、看似中立的文本如何将女性身体的结晶化的、殖民地结构化的框架具体化,从而加强了历史不平等。 该研究提出了一种综合方法,将机器学习技术与定性的、人工的论述分析相结合。

🔬 方法详解

问题定义:该论文旨在揭示大型语言模型在生成文本时可能存在的种族偏见,特别是LLaMA 3.2-3B在生成关于黑人和白人女性的葡萄牙语短篇小说时,如何体现和强化历史不平等。现有方法缺乏对生成文本中潜在偏见的深入分析,难以识别隐藏在看似中立的叙事中的种族歧视。

核心思路:论文的核心思路是将计算方法与定性分析相结合。首先,利用机器学习技术对生成的文本进行聚类,将语义相似的故事分组。然后,通过人工分析,深入挖掘这些故事中存在的种族偏见,揭示模型如何通过特定的论述表征来固化殖民地结构化的女性身体框架。

技术框架:整体框架包括以下几个阶段:1) 使用LLaMA 3.2-3B生成关于黑人和白人女性的葡萄牙语短篇小说;2) 对生成的2100篇文本进行预处理和特征提取;3) 使用聚类算法(具体算法未知)对文本进行分组,将语义相似的故事聚为一类;4) 对每个聚类中的故事进行定性分析,识别主要的论述表征;5) 分析这些论述表征如何体现和强化种族偏见。

关键创新:该研究的关键创新在于将机器学习技术与定性分析相结合,提出了一种综合性的方法来分析大型语言模型生成文本中的种族偏见。与传统的仅依赖统计分析的方法不同,该研究通过深入挖掘文本的语义和语境,揭示了隐藏在叙事中的深层偏见。这种方法能够更全面地评估语言模型的社会影响。

关键设计:论文中关于聚类算法的具体参数设置、损失函数等技术细节未知。定性分析方法主要依赖人工分析,通过对文本的解读和分析,识别出三种主要的论述表征:社会克服、祖先神话化和主观自我实现。这些论述表征反映了模型对黑人和白人女性的不同刻板印象。

📊 实验亮点

该研究通过对LLaMA 3.2-3B生成的2100篇葡萄牙语短篇小说的分析,揭示了模型在叙述黑人和白人女性故事时存在的种族偏见。 研究识别出三种主要的论述表征,并指出模型倾向于固化殖民地结构化的女性身体框架,从而强化历史不平等。 具体性能数据和对比基线未知。

🎯 应用场景

该研究的成果可应用于评估和改进大型语言模型的公平性和公正性,减少其在生成文本中可能存在的社会偏见。 此外,该方法可以推广到其他语言和文化背景下,用于分析不同语言模型在处理种族、性别等敏感话题时的表现。 这有助于开发更负责任和符合伦理规范的人工智能系统。

📄 摘要(原文)

This study investigates how large language models, in particular LLaMA 3.2-3B, construct narratives about Black and white women in short stories generated in Portuguese. From 2100 texts, we applied computational methods to group semantically similar stories, allowing a selection for qualitative analysis. Three main discursive representations emerge: social overcoming, ancestral mythification and subjective self-realization. The analysis uncovers how grammatically coherent, seemingly neutral texts materialize a crystallized, colonially structured framing of the female body, reinforcing historical inequalities. The study proposes an integrated approach, that combines machine learning techniques with qualitative, manual discourse analysis.