Distributed Partial Information Puzzles: Examining Common Ground Construction Under Epistemic Asymmetry

📄 arXiv: 2603.05450v1 📥 PDF

作者: Yifan Zhu, Mariah Bradford, Kenneth Lai, Timothy Obiso, Videep Venkatesha, James Pustejovsky, Nikhil Krishnaswamy

分类: cs.AI, cs.CL

发布日期: 2026-03-05

备注: 10 pages, 4 figures


💡 一句话要点

提出分布式部分信息谜题(DPIP)任务,评估AI在认知不对称下的协同能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 共同基础 认知不对称 多模态协作 动态认知逻辑 大型语言模型

📋 核心要点

  1. 现有AI系统在多模态、多方协作中,难以有效建立共同基础,尤其是在参与者拥有不同信息时。
  2. 论文提出分布式部分信息谜题(DPIP)任务,旨在模拟认知不对称下的协作场景,促进多模态交流。
  3. 实验表明,即使是最先进的LLM,在DPIP任务中跟踪任务进展和信念状态方面仍然面临挑战。

📝 摘要(中文)

建立共同基础,即共享的信念和相互认可的事实,是协作的基础,但对于当前的人工智能系统来说仍然是一个挑战,尤其是在多模态、多方环境中,协作方带来了不同的信息。我们引入了分布式部分信息谜题(DPIP),这是一个协作构建任务,在认知不对称下引发丰富的多模态交流。我们提出了一个多模态交互数据集,该数据集在语音、手势和动作模态上进行了注释和时间对齐,以支持对命题内容和信念动态的推理。然后,我们评估了两种用于建模共同基础(CG)的范例:(1)最先进的大型语言模型(LLM),被提示从多模态更新中推断共享信念,以及(2)一个基于动态认知逻辑(DEL)的公理化管道,该管道以增量方式执行相同的任务。在带注释的DPIP数据上的结果表明,它对现代LLM跟踪任务进展和信念状态的能力提出了挑战。

🔬 方法详解

问题定义:论文旨在解决AI系统在认知不对称的多方协作环境中,难以有效建立共同基础的问题。现有方法,特别是大型语言模型,虽然在单轮对话中表现出色,但在需要持续跟踪信念状态和任务进展的复杂协作任务中表现不足。DPIP任务的设计正是为了暴露这些不足,为未来的研究提供一个更具挑战性的评估基准。

核心思路:论文的核心思路是通过设计一个协作游戏(DPIP),迫使参与者在信息不对称的情况下进行交流,从而显式地暴露他们各自的信念和意图。通过分析参与者在游戏中的多模态交流(语音、手势、动作),可以更深入地理解他们如何建立共同基础,以及现有AI模型在模拟这一过程中的局限性。

技术框架:论文主要包含以下几个部分:1) 设计DPIP任务,该任务涉及多个参与者,每个人掌握部分信息,需要通过协作才能完成拼图;2) 收集DPIP任务中的多模态数据,包括语音、手势和动作;3) 对数据进行标注,包括命题内容和信念动态;4) 使用两种范例建模共同基础:基于LLM的范例和基于动态认知逻辑(DEL)的公理化管道;5) 评估两种范例在DPIP数据上的表现。

关键创新:论文的关键创新在于DPIP任务的设计,它提供了一个新的、更具挑战性的评估基准,用于测试AI系统在认知不对称下的协作能力。与传统的对话任务相比,DPIP任务更强调信念状态的跟踪和任务进展的理解,这对于构建真正智能的协作系统至关重要。此外,论文还对比了基于LLM和基于DEL的两种建模方法,为未来的研究提供了新的思路。

关键设计:DPIP任务的具体设计细节未知,但可以推测其关键设计在于如何控制参与者之间的信息不对称程度,以及如何设计任务目标,使得参与者必须通过交流才能完成任务。数据标注方面,关键在于如何准确地标注参与者的信念状态和意图,这需要对语音、手势和动作等多模态信息进行综合分析。LLM的prompt设计和DEL公理化管道的具体规则也是关键的设计细节,但论文摘要中未详细说明。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,即使是最先进的LLM,在DPIP任务中跟踪任务进展和信念状态方面仍然面临挑战。这表明,当前AI系统在认知不对称下的协作能力仍然有限,需要进一步的研究和改进。具体的性能数据和提升幅度未知。

🎯 应用场景

该研究成果可应用于开发更智能的协作机器人、虚拟助手和多方会议系统。通过更好地理解和模拟人类在认知不对称下的协作方式,可以构建更自然、更有效的AI协作系统,提升人机协作和人与人之间的协作效率。

📄 摘要(原文)

Establishing common ground, a shared set of beliefs and mutually recognized facts, is fundamental to collaboration, yet remains a challenge for current AI systems, especially in multimodal, multiparty settings, where the collaborators bring different information to the table. We introduce the Distributed Partial Information Puzzle (DPIP), a collaborative construction task that elicits rich multimodal communication under epistemic asymmetry. We present a multimodal dataset of these interactions, annotated and temporally aligned across speech, gesture, and action modalities to support reasoning over propositional content and belief dynamics. We then evaluate two paradigms for modeling common ground (CG): (1) state-of-the-art large language models (LLMs), prompted to infer shared beliefs from multimodal updates, and (2) an axiomatic pipeline grounded in Dynamic Epistemic Logic (DEL) that incrementally performs the same task. Results on the annotated DPIP data indicate that it poses a challenge to modern LLMs' abilities to track both task progression and belief state.