GuessBench: Sensemaking Multimodal Creativity in the Wild
作者: Zifeng Zhu, Shangbin Feng, Herun Wan, Ningnan Wang, Minnan Luo, Yulia Tsvetkov
分类: cs.CL
发布日期: 2025-06-01 (更新: 2025-06-06)
💡 一句话要点
提出GuessBench以评估多模态创意建模能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉语言模型 多模态创意 Minecraft游戏 数据基准 模型评估 推理增强 文化背景影响
📋 核心要点
- 现有的视觉语言模型在处理复杂的人类创意时面临挑战,尤其是在噪声和多样性方面。
- GuessBench通过在线多人游戏生成数据,提供了一个评估VLMs创意建模能力的新方法。
- 实验结果显示,GuessBench能显著提升模型性能,尤其是在视觉感知任务上,平均提升达15.36%。
📝 摘要(中文)
我们提出了GuessBench,这是一个新颖的基准,用于评估视觉语言模型(VLMs)在建模人类创意方面的能力。GuessBench的数据来源于“Guess the Build”,这是一个在线多人Minecraft小游戏,玩家根据概念构建作品,其他玩家通过自然语言提示进行猜测。我们从实际游戏中整理了1500张图像,并设计了2000个问题,涵盖静态和动态图像设置、不同完整性的自然语言提示等。通过对六个开放/API VLMs和五种推理增强方法的广泛实验,我们发现GuessBench在创意建模中提出了独特的挑战:即使是最先进的GPT-4o在34%的实例中也出现错误,而开放模型与API模型之间的性能差距达到13.87%与53.93%。对GuessBench问题进行微调后,视觉感知任务的平均提升达15.36%。
🔬 方法详解
问题定义:本论文旨在解决现有视觉语言模型在建模人类创意时的不足,尤其是在面对复杂、嘈杂和多元化的创意场景时的表现不佳。现有方法在处理这些挑战时常常出现错误,无法有效理解和生成创意内容。
核心思路:论文提出GuessBench作为一个新基准,通过“Guess the Build”游戏生成数据,利用VLMs作为猜测者,评估其在创意理解和生成中的能力。这样的设计旨在提供一个真实的、多样化的测试环境,以更好地反映人类创意的复杂性。
技术框架:GuessBench的整体架构包括数据收集、问题设计和模型评估三个主要模块。首先,从游戏中收集图像数据,然后设计涵盖多种情境的问题,最后通过多种VLMs进行评估和比较。
关键创新:GuessBench的主要创新在于其数据来源和问题设计,提供了一个真实的、多模态的创意评估平台。这与传统的基准测试方法不同,后者往往依赖于静态和有限的数据集。
关键设计:在设计过程中,论文特别关注了自然语言提示的完整性和多样性,并通过微调策略优化了模型的表现,使用了多种损失函数和网络结构以提高模型的视觉感知能力。实验中还考虑了文化背景和语言资源的影响。
📊 实验亮点
实验结果显示,即使是最先进的GPT-4o在34%的实例中也出现错误,开放模型与API模型之间的性能差距达到13.87%与53.93%。通过对GuessBench问题进行微调,视觉感知任务的平均提升达15.36%,显示出GuessBench在提升模型能力方面的显著效果。
🎯 应用场景
GuessBench的研究成果具有广泛的应用潜力,尤其是在教育、游戏设计和人机交互等领域。通过提升视觉语言模型的创意理解能力,可以改善智能助手、教育工具和创意生成系统的性能,推动相关技术的进步与应用。未来,GuessBench或将成为多模态创意研究的重要基准。
📄 摘要(原文)
We propose GuessBench, a novel benchmark that evaluates Vision Language Models (VLMs) on modeling the pervasive, noisy, and pluralistic human creativity. GuessBench sources data from "Guess the Build", an online multiplayer Minecraft minigame where one player constructs a Minecraft build given a concept (e.g. caterpillar) and others try to guess it with natural language hints, presenting a pristine testbed for sensemaking creativity in the wild with VLMs acting as guessers. We curate 1500 images from the actual gameplay and design 2000 problems spanning static and dynamic image settings, natural language hints of varying completeness, and more. Extensive experiments with six open/API VLMs and five reasoning enhancement approaches demonstrate that GuessBench presents a uniquely challenging task in creativity modeling: even the start-of-the-art GPT-4o is incorrect on 34% of instances, while we observe a huge performance gap (13.87% vs. 53.93% on average) between open and API models. When used as a resource to improve VLMs, fine-tuning on the reasoning traces for GuessBench problems improves visual perception tasks by 15.36% on average. Further analysis reveals that VLM performance in creativity sensemaking correlates with the frequency of the concept in training data, while the accuracy drops sharply for concepts in underrepresented cultural contexts and low-resource languages.