VideoNorms: Benchmarking Cultural Awareness of Video Language Models

作者: Nikhil Reddy Varimalla, Yunfei Xu, Arkadiy Saakyan, Meng Fan Wang, Smaranda Muresan

分类: cs.CV, cs.AI, cs.CL, cs.CY

发布日期: 2025-10-09

备注: 24 pages, 5 figures, under review

💡 一句话要点

VideoNorms：构建视频语言模型文化意识基准，揭示模型在跨文化理解上的不足。

🎯 匹配领域: 支柱六：视频提取与匹配 (Video Extraction) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视频语言模型 文化意识 基准数据集 人机协作 社会文化规范

📋 核心要点

现有视频语言模型缺乏对不同文化的深入理解，导致在全球部署时可能出现误解或错误。
论文提出VideoNorms基准，包含美国和中国文化的视频片段，标注了社会文化规范及其违反情况。
实验表明，现有模型在文化规范违反、中国文化理解和非语言证据识别方面表现较差。

📝 摘要（中文）

随着视频大语言模型（VideoLLM）在全球范围内的部署，它们需要理解并扎根于相关的文化背景。为了正确评估这些模型的文化意识，需要充分的基准。我们引入了VideoNorms，这是一个包含1000多个（视频片段，规范）对的基准，这些数据来自美国和中国文化，并标注了基于言语行为理论的社会文化规范、规范遵守和违反标签，以及口头和非口头证据。为了构建VideoNorms，我们使用了一种人机协作框架，其中使用理论驱动的提示的教师模型提供候选注释，一组训练有素的人类专家验证并纠正这些注释。我们在新数据集上对各种开源VideoLLM进行了基准测试，突出了几个常见趋势：1）模型在规范违反方面的表现比遵守差；2）模型在涉及中国文化方面的表现比美国文化差；3）模型在为规范遵守/违反标签提供非口头证据方面比口头证据更困难，并且难以识别与言语行为相对应的确切规范；4）与人类不同，模型在正式、非幽默的语境中表现更差。我们的研究结果强调了对文化基础的视频语言模型训练的需求——我们的基准和框架开始解决这一差距。

🔬 方法详解

问题定义：现有视频语言模型（VideoLLM）在全球部署时，缺乏对不同文化的理解，尤其是在社会文化规范方面。这导致模型在跨文化场景下的表现不佳，例如无法正确识别规范的遵守或违反情况。现有方法缺乏针对文化意识的专门评估基准，难以有效衡量和提升模型在这方面的能力。

核心思路：论文的核心思路是构建一个包含不同文化（美国和中国）的视频片段，并标注了社会文化规范的基准数据集VideoNorms。通过让人工智能教师模型生成候选标注，再由人工专家进行验证和修正，从而保证标注的质量和准确性。利用该基准，可以系统地评估现有VideoLLM在文化意识方面的表现，并为未来的模型训练提供指导。

技术框架：VideoNorms的构建流程主要包括以下几个阶段：1) 数据收集：收集来自美国和中国文化的视频片段。2) 规范标注：使用基于言语行为理论的提示，由教师模型生成候选的社会文化规范标注，包括规范遵守和违反标签，以及口头和非口头证据。3) 人工验证：由训练有素的人工专家对教师模型生成的标注进行验证和修正，确保标注的准确性和一致性。4) 模型评估：使用VideoNorms基准评估现有VideoLLM在文化意识方面的表现。

关键创新：该论文的关键创新在于：1) 提出了VideoNorms基准，这是首个专门用于评估VideoLLM文化意识的数据集。2) 采用了人机协作的标注框架，结合了人工智能的效率和人类专家的准确性，提高了标注质量。3) 基于言语行为理论，对社会文化规范进行了系统性的标注，为模型提供了更丰富的语义信息。

关键设计：在标注过程中，使用了基于言语行为理论的提示，引导教师模型生成候选标注。人工专家在验证和修正标注时，需要提供口头和非口头证据，以支持其判断。在模型评估方面，论文关注模型在规范遵守和违反、不同文化背景、口头和非口头证据识别等方面的表现差异。

📊 实验亮点

实验结果表明，现有VideoLLM在文化意识方面存在显著不足。模型在规范违反方面的表现比遵守差，对中国文化的理解不如美国文化，且难以识别非语言证据。此外，模型在正式、非幽默的语境中表现更差，这与人类的认知模式存在差异。这些发现强调了文化基础的视频语言模型训练的重要性。

🎯 应用场景

该研究成果可应用于提升视频语言模型在全球范围内的可用性和可靠性。通过使用VideoNorms基准进行评估和训练，可以提高模型对不同文化的理解能力，减少因文化差异导致的误解或错误。这对于跨文化交流、教育、娱乐等领域具有重要意义，有助于构建更加智能和人性化的视频理解系统。

📄 摘要（原文）

As Video Large Language Models (VideoLLMs) are deployed globally, they require understanding of and grounding in the relevant cultural background. To properly assess these models' cultural awareness, adequate benchmarks are needed. We introduce VideoNorms, a benchmark of over 1000 (video clip, norm) pairs from US and Chinese cultures annotated with socio-cultural norms grounded in speech act theory, norm adherence and violations labels, and verbal and non-verbal evidence. To build VideoNorms, we use a human-AI collaboration framework, where a teacher model using theoretically-grounded prompting provides candidate annotations and a set of trained human experts validate and correct the annotations. We benchmark a variety of open-weight VideoLLMs on the new dataset which highlight several common trends: 1) models performs worse on norm violation than adherence; 2) models perform worse w.r.t Chinese culture compared to the US culture; 3) models have more difficulty in providing non-verbal evidence compared to verbal for the norm adhere/violation label and struggle to identify the exact norm corresponding to a speech-act; and 4) unlike humans, models perform worse in formal, non-humorous contexts. Our findings emphasize the need for culturally-grounded video language model training - a gap our benchmark and framework begin to address.

VideoNorms: Benchmarking Cultural Awareness of Video Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册