Reasoning Riddles: How Explainability Reveals Cognitive Limits in Vision-Language Models

作者: Prahitha Movva

分类: cs.CV

发布日期: 2025-10-03

期刊: COLM 2025: First Workshop on the Application of LLM Explainability to Reasoning and Planning

💡 一句话要点

通过可解释性分析揭示视觉-语言模型在谜题推理中的认知局限

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言模型 可解释性分析 文字谜题 认知推理 提示工程

📋 核心要点

现有视觉-语言模型在文字谜题等复杂推理任务中表现不佳，其内在推理过程缺乏深入理解。
论文通过可解释性分析，研究不同提示策略下VLM的推理过程，揭示其认知优势与局限。
构建了包含221个文字谜题的数据集，并发现VLM在视觉组合方面表现较好，但在文化象征意义理解方面存在不足。

📝 摘要（中文）

视觉-语言模型(VLM)在许多多模态任务中表现出色，但在复杂的横向思维挑战（如文字谜题）中，其认知过程仍然不透明。虽然最近的研究表明这些模型在解决文字谜题方面存在显著困难，但其潜在的推理过程和失败模式在很大程度上仍未被探索。我们通过全面的可解释性分析来弥补这一差距，超越性能指标，以了解VLM如何处理这些复杂的横向思维挑战。我们的研究贡献了一个系统注释的数据集，包含221个文字谜题，涵盖六个认知类别，并配有一个评估框架，将推理质量与答案正确性分开。我们研究了三种提示策略，旨在引出不同类型的解释过程，并揭示了VLM认知过程的关键见解。我们的研究结果表明，推理质量在不同谜题类别之间差异很大，模型在视觉组合方面表现出系统性的优势，但在缺失解释和文化象征意义方面表现出根本性的局限性。我们还发现，提示策略显著影响认知方法和问题解决效果，从而确立了可解释性是模型性能的一个组成部分，而不是事后考虑。

🔬 方法详解

问题定义：论文旨在解决视觉-语言模型（VLM）在解决文字谜题等需要横向思维的复杂推理任务时，其认知过程不透明的问题。现有方法主要关注性能指标，而忽略了对VLM内在推理过程的理解，无法解释VLM为何成功或失败，以及其认知局限性。

核心思路：论文的核心思路是通过可解释性分析，深入研究VLM在解决文字谜题时的推理过程。通过设计不同的提示策略，引导VLM生成解释，并分析这些解释的质量，从而揭示VLM的认知优势和局限性。这种方法将推理质量与答案正确性分离，能够更准确地评估VLM的推理能力。

技术框架：论文的技术框架主要包括以下几个部分：1) 构建一个包含221个文字谜题的数据集，并对每个谜题进行系统注释，将其分为六个认知类别。2) 设计三种不同的提示策略，旨在引出不同类型的解释过程。3) 使用VLM解决文字谜题，并记录其生成的答案和解释。4) 评估VLM的答案正确性和解释质量，并分析不同认知类别和提示策略下的结果。

关键创新：论文最重要的技术创新点在于其可解释性分析方法，该方法超越了传统的性能指标，深入研究了VLM的推理过程。通过分析VLM生成的解释，揭示了VLM在不同认知类别上的优势和局限性。此外，论文还发现提示策略对VLM的认知方法和问题解决效果有显著影响，强调了可解释性在模型性能中的重要性。

关键设计：论文的关键设计包括：1) 数据集的构建，该数据集包含多个认知类别的文字谜题，并进行了系统注释。2) 提示策略的设计，旨在引出不同类型的解释过程，例如，一步一步的推理，或者直接给出答案和解释。3) 评估指标的设计，将推理质量与答案正确性分离，能够更准确地评估VLM的推理能力。

📊 实验亮点

实验结果表明，VLM在视觉组合方面表现出系统性的优势，但在缺失解释和文化象征意义方面表现出根本性的局限性。不同提示策略对VLM的认知方法和问题解决效果有显著影响，表明可解释性是模型性能的一个重要组成部分。该研究为理解VLM的认知过程提供了新的视角。

🎯 应用场景

该研究成果可应用于提升视觉-语言模型在复杂推理任务中的表现，例如常识推理、视觉问答等。通过理解模型的认知局限性，可以设计更有效的训练方法和模型架构，提高模型的可解释性和可靠性。此外，该研究还可以促进人机协作，帮助人类更好地理解和利用人工智能系统。

📄 摘要（原文）

Vision-Language Models (VLMs) excel at many multimodal tasks, yet their cognitive processes remain opaque on complex lateral thinking challenges like rebus puzzles. While recent work has demonstrated these models struggle significantly with rebus puzzle solving, the underlying reasoning processes and failure patterns remain largely unexplored. We address this gap through a comprehensive explainability analysis that moves beyond performance metrics to understand how VLMs approach these complex lateral thinking challenges. Our study contributes a systematically annotated dataset of 221 rebus puzzles across six cognitive categories, paired with an evaluation framework that separates reasoning quality from answer correctness. We investigate three prompting strategies designed to elicit different types of explanatory processes and reveal critical insights into VLM cognitive processes. Our findings demonstrate that reasoning quality varies dramatically across puzzle categories, with models showing systematic strengths in visual composition while exhibiting fundamental limitations in absence interpretation and cultural symbolism. We also discover that prompting strategy substantially influences both cognitive approach and problem-solving effectiveness, establishing explainability as an integral component of model performance rather than a post-hoc consideration.

Reasoning Riddles: How Explainability Reveals Cognitive Limits in Vision-Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册