The performances of the Chinese and U.S. Large Language Models on the Topic of Chinese Culture

📄 arXiv: 2601.02830v1 📥 PDF

作者: Feiyan Liu, Chenxun Zhuo, Siyan Zhao, Bao Ge, Tianming Liu

分类: cs.CL

发布日期: 2026-01-06


💡 一句话要点

对比中美大语言模型在中文文化理解上的差异与表现

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 中文文化理解 跨文化评估 中美对比 知识问答

📋 核心要点

  1. 现有大语言模型在处理特定文化背景知识时可能存在偏差,尤其是在跨文化理解方面。
  2. 该研究通过直接提问的方式,对比中美两国开发的大语言模型在理解中国文化方面的表现。
  3. 实验结果表明,中国开发的大语言模型在理解中国文化方面通常优于美国模型。

📝 摘要(中文)

本文旨在研究中美两国开发者发布的大语言模型(LLMs)在中文文化理解方面的差异。自2018年GPT-1问世以来,LLMs发展迅速。目前,全球领先的LLM开发者主要集中在中美两国。为了考察中美开发者发布的LLMs在中文语境下是否表现出文化差异,我们评估了它们在有关中国文化问题上的表现。本研究采用直接提问的方式评估了GPT-5.1、DeepSeek-V3.2、Qwen3-Max和Gemini2.5Pro等模型。我们评估了它们对中国传统文化的理解,包括历史、文学、诗歌及相关领域。中美LLMs的对比分析表明,中国模型在这些任务上的表现通常优于美国模型。在美国开发的模型中,Gemini 2.5Pro和GPT-5.1取得了相对较高的准确率。观察到的性能差异可能源于训练数据分布、本地化策略以及模型开发过程中对中国文化内容的重视程度的差异。

🔬 方法详解

问题定义:论文旨在评估中美两国开发的大语言模型在理解和处理中国文化相关问题上的能力差异。现有大语言模型在处理特定文化背景知识时可能存在偏差,尤其是在跨文化理解方面,这限制了它们在特定文化环境下的应用。

核心思路:论文的核心思路是通过构建一系列关于中国文化的问题,直接提问不同的LLM,然后比较它们的回答准确性,以此来评估它们对中国文化的理解程度。这种直接提问的方式能够有效地暴露模型在特定知识领域的不足。

技术框架:该研究采用直接提问的评估范式。首先,构建包含中国历史、文学、诗歌等领域的测试数据集。然后,选择具有代表性的中美两国开发的大语言模型,例如GPT-5.1、DeepSeek-V3.2、Qwen3-Max和Gemini2.5Pro。最后,将测试数据集中的问题输入到这些模型中,评估它们的回答准确性,并进行对比分析。

关键创新:该研究的创新之处在于它直接关注了大语言模型在特定文化背景下的表现差异,并采用了一种简单有效的直接提问方法来评估这种差异。以往的研究可能更多关注模型的通用能力,而忽略了文化背景对模型性能的影响。该研究填补了这方面的空白。

关键设计:论文的关键设计在于测试数据集的构建,需要确保问题能够覆盖中国文化的主要方面,并且具有一定的难度,能够区分不同模型的理解能力。此外,评估指标的选择也很重要,需要选择能够准确反映模型回答质量的指标,例如准确率。

📊 实验亮点

实验结果表明,中国开发的大语言模型在理解中国文化方面通常优于美国模型。在美国开发的模型中,Gemini 2.5Pro和GPT-5.1取得了相对较高的准确率。这些差异可能源于训练数据分布、本地化策略以及模型开发过程中对中国文化内容的重视程度的差异。

🎯 应用场景

该研究成果可应用于改进大语言模型的跨文化理解能力,提升其在特定文化环境下的应用效果。例如,可以用于开发更符合中国文化习惯的智能客服、文化教育工具等。此外,该研究也为评估和优化其他文化背景下的大语言模型提供了参考。

📄 摘要(原文)

Cultural backgrounds shape individuals' perspectives and approaches to problem-solving. Since the emergence of GPT-1 in 2018, large language models (LLMs) have undergone rapid development. To date, the world's ten leading LLM developers are primarily based in China and the United States. To examine whether LLMs released by Chinese and U.S. developers exhibit cultural differences in Chinese-language settings, we evaluate their performance on questions about Chinese culture. This study adopts a direct-questioning paradigm to evaluate models such as GPT-5.1, DeepSeek-V3.2, Qwen3-Max, and Gemini2.5Pro. We assess their understanding of traditional Chinese culture, including history, literature, poetry, and related domains. Comparative analyses between LLMs developed in China and the U.S. indicate that Chinese models generally outperform their U.S. counterparts on these tasks. Among U.S.-developed models, Gemini 2.5Pro and GPT-5.1 achieve relatively higher accuracy. The observed performance differences may potentially arise from variations in training data distribution, localization strategies, and the degree of emphasis on Chinese cultural content during model development.