Mind the Gap: Pitfalls of LLM Alignment with Asian Public Opinion

📄 arXiv: 2603.06264v1 📥 PDF

作者: Hari Shankar, Vedanta S P, Sriharini Margapuri, Debjani Mazumder, Ponnurangam Kumaraguru, Abhijnan Chakraborty

分类: cs.CL, cs.CY

发布日期: 2026-03-06

备注: 11 pages, including references


💡 一句话要点

提出多语言审计方法以解决LLM与亚洲公众意见的文化不对齐问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 文化对齐 多语言审计 宗教观点 公众意见 偏见评估 跨文化交流

📋 核心要点

  1. 现有大型语言模型在多文化环境中应用时,常因训练数据偏向英语而导致与亚洲公众意见的不对齐,尤其在宗教领域表现突出。
  2. 本文通过对多个LLM的内部表示进行多维度分析,提出了一种多语言审计方法,旨在评估模型与公众态度的对齐程度。
  3. 研究结果显示,尽管模型在社会问题上与公众意见一致,但在宗教观点上存在显著偏差,尤其是对少数群体的误解和刻板印象的放大。

📝 摘要(中文)

大型语言模型(LLMs)在多语言和多文化环境中的应用日益增加,但其对以英语为中心的训练数据的依赖,可能导致与不同社会的文化价值观不一致。本文对包括GPT-4o-Mini、Gemini-2.5-Flash、Llama 3.2、Mistral和Gemma 3在内的现代LLMs进行了全面的多语言审计,重点关注宗教这一敏感领域。研究发现,尽管这些模型在广泛的社会问题上与公众意见大体一致,但在宗教观点的表达上,尤其是少数群体的观点,表现出明显的偏差,常常放大负面刻板印象。轻量级干预措施如人口统计学引导和母语提示虽能部分缓解文化差距,但无法完全消除。研究强调了进行系统性、区域性审计的迫切需求,以确保LLMs的全球公平部署。

🔬 方法详解

问题定义:本文旨在解决大型语言模型在多文化环境中与公众意见,特别是宗教观点的不对齐问题。现有方法主要依赖于英语数据,导致对非英语文化的理解不足。

核心思路:通过对LLMs进行多语言审计,分析其内部表示与公众态度的对齐程度,特别关注宗教这一敏感领域,以识别和量化文化差距。

技术框架:研究采用了多维度分析框架,包括对模型的log-probs/logits进行审计,比较模型输出与真实公众态度的分布,涵盖多个亚洲地区的样本。

关键创新:本研究的创新在于系统性地审计多种LLMs在文化对齐方面的表现,尤其是在宗教观点的表达上,揭示了模型在少数群体观点上的偏差。

关键设计:研究中使用了轻量级干预措施,如人口统计学引导和母语提示,来部分缓解文化差距,并在多个偏见基准上进行下游评估,揭示了模型在敏感上下文中的持续偏见和表现不足。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,尽管流行的LLMs在广泛社会问题上与公众意见一致,但在宗教观点上存在显著偏差,尤其是对少数群体的误解。轻量级干预措施虽能部分缓解文化差距,但无法完全消除,强调了进行系统性审计的必要性。

🎯 应用场景

该研究的潜在应用领域包括多语言聊天机器人、社交媒体内容生成和跨文化交流工具等。通过确保LLMs更好地对齐不同文化的公众意见,能够提升其在全球范围内的接受度和有效性,促进文化理解与交流。

📄 摘要(原文)

Large Language Models (LLMs) are increasingly being deployed in multilingual, multicultural settings, yet their reliance on predominantly English-centric training data risks misalignment with the diverse cultural values of different societies. In this paper, we present a comprehensive, multilingual audit of the cultural alignment of contemporary LLMs including GPT-4o-Mini, Gemini-2.5-Flash, Llama 3.2, Mistral and Gemma 3 across India, East Asia and Southeast Asia. Our study specifically focuses on the sensitive domain of religion as the prism for broader alignment. To facilitate this, we conduct a multi-faceted analysis of every LLM's internal representations, using log-probs/logits, to compare the model's opinion distributions against ground-truth public attitudes. We find that while the popular models generally align with public opinion on broad social issues, they consistently fail to accurately represent religious viewpoints, especially those of minority groups, often amplifying negative stereotypes. Lightweight interventions, such as demographic priming and native language prompting, partially mitigate but do not eliminate these cultural gaps. We further show that downstream evaluations on bias benchmarks (such as CrowS-Pairs, IndiBias, ThaiCLI, KoBBQ) reveal persistent harms and under-representation in sensitive contexts. Our findings underscore the urgent need for systematic, regionally grounded audits to ensure equitable global deployment of LLMs.