Beyond Perception: Evaluating Abstract Visual Reasoning through Multi-Stage Task

📄 arXiv: 2505.21850v2 📥 PDF

作者: Yanbei Jiang, Yihao Ding, Chao Lei, Jiayang Ao, Jey Han Lau, Krista A. Ehinger

分类: cs.CV, cs.AI

发布日期: 2025-05-28 (更新: 2025-05-30)

备注: Accepted at ACL Findings


💡 一句话要点

提出MultiStAR基准以解决抽象视觉推理评估问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 抽象视觉推理 多阶段推理 多模态大语言模型 评估指标 复杂任务

📋 核心要点

  1. 现有的抽象视觉推理基准主要集中于单步推理,忽视了推理过程的多阶段特性,导致评估不全面。
  2. 本文提出MultiStAR基准,旨在通过多阶段推理评估模型在复杂任务中的表现,并引入新指标MSEval以考虑中间步骤的正确性。
  3. 实验结果表明,现有MLLMs在基本感知任务上表现良好,但在复杂规则检测阶段仍存在显著挑战。

📝 摘要(中文)

当前的多模态大语言模型(MLLMs)在一般视觉推理方面表现出色,但在抽象视觉推理(AVR)上仍然未被充分探索。现有的AVR基准主要集中于单步推理,强调最终结果而忽视推理过程的多阶段特性。为了解决这一问题,本文提出了MultiStAR,一个基于RAVEN的多阶段AVR基准,旨在评估不同复杂度下的推理能力。此外,现有的评估指标如准确率仅关注最终结果,而未考虑中间步骤的正确性,因此我们提出了一种新颖的指标MSEval,综合考虑中间步骤和最终结果的正确性。通过对17种代表性的闭源和开源MLLMs进行全面实验,结果显示,尽管现有MLLMs在基本感知任务上表现良好,但在更复杂的规则检测阶段仍面临挑战。

🔬 方法详解

问题定义:本文旨在解决现有抽象视觉推理基准在评估多阶段推理能力时的不足,特别是缺乏对中间推理步骤的关注。

核心思路:通过引入MultiStAR基准,强调多阶段推理的重要性,并提出MSEval指标来综合评估中间步骤和最终结果的正确性。

技术框架:MultiStAR基于RAVEN设计,包含多个推理阶段,每个阶段针对不同复杂度的任务进行评估,确保全面考察模型的推理能力。

关键创新:最重要的创新在于MultiStAR基准的提出和MSEval指标的设计,使得评估不仅关注最终结果,还能反映推理过程的完整性与准确性。

关键设计:在实验中,使用了17种不同的MLLMs,设置了多种复杂度的任务,并通过MSEval评估中间步骤的正确性,确保评估的全面性和准确性。

📊 实验亮点

实验结果显示,现有的MLLMs在基本视觉感知任务上表现良好,准确率达到85%以上,但在复杂规则检测阶段的表现明显下降,准确率仅为50%左右,表明其在抽象视觉推理方面的局限性。

🎯 应用场景

该研究的潜在应用领域包括教育、机器人视觉系统和智能监控等,能够帮助提高机器在复杂视觉推理任务中的表现。未来,MultiStAR基准和MSEval指标可能成为评估视觉推理能力的重要标准,推动相关领域的研究进展。

📄 摘要(原文)

Current Multimodal Large Language Models (MLLMs) excel in general visual reasoning but remain underexplored in Abstract Visual Reasoning (AVR), which demands higher-order reasoning to identify abstract rules beyond simple perception. Existing AVR benchmarks focus on single-step reasoning, emphasizing the end result but neglecting the multi-stage nature of reasoning process. Past studies found MLLMs struggle with these benchmarks, but it doesn't explain how they fail. To address this gap, we introduce MultiStAR, a Multi-Stage AVR benchmark, based on RAVEN, designed to assess reasoning across varying levels of complexity. Additionally, existing metrics like accuracy only focus on the final outcomes while do not account for the correctness of intermediate steps. Therefore, we propose a novel metric, MSEval, which considers the correctness of intermediate steps in addition to the final outcomes. We conduct comprehensive experiments on MultiStAR using 17 representative close-source and open-source MLLMs. The results reveal that while existing MLLMs perform adequately on basic perception tasks, they continue to face challenges in more complex rule detection stages.