A Neuropsychologically Grounded Evaluation of LLM Cognitive Abilities

📄 arXiv: 2603.02540v1 📥 PDF

作者: Faiz Ghifari Haznitrama, Faeyza Rishad Ardi, Alice Oh

分类: cs.AI

发布日期: 2026-03-03

备注: 26 pages, 2 figures, 16 tables


💡 一句话要点

提出NeuroCognition基准,从神经心理学角度评估LLM认知能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 认知能力评估 神经心理学 基准测试 抽象推理

📋 核心要点

  1. 现有LLM评测基准侧重任务完成,忽略了对基础认知能力的考察,无法有效揭示模型在类人智能方面的不足。
  2. 论文提出NeuroCognition基准,基于神经心理学测试,评估LLM在抽象推理、工作记忆和认知灵活性等方面的能力。
  3. 实验表明,LLM在文本任务上表现较好,但在图像任务和高复杂度任务中性能下降,表明其认知能力存在局限性。

📝 摘要(中文)

大型语言模型(LLM)在10个基准测试中表现出统一的“通用能力因子”,我们对156个模型的因子分析证实了这一发现,但它们仍然难以完成对人类来说简单、琐碎的任务。这是因为当前的基准测试侧重于任务完成,而未能探究突出这些行为的基础认知能力。我们通过引入NeuroCognition基准来解决这个问题,该基准基于三个改编的神经心理学测试:瑞文推理测验(抽象关系推理)、空间工作记忆(维护和系统搜索)和威斯康星卡片分类测验(认知灵活性)。我们的评估表明,虽然模型在文本方面表现出色,但其在图像和复杂度增加的情况下性能会下降。此外,我们观察到复杂的推理并非普遍有益,而简单、类人的策略会产生部分收益。我们还发现,NeuroCognition与标准通用能力基准呈正相关,同时仍然测量超出它们的不同认知能力。总的来说,NeuroCognition强调了当前LLM与类人智能的对齐之处以及它们缺乏核心适应性认知的地方,显示了作为改进LLM的可验证、可扩展来源的潜力。

🔬 方法详解

问题定义:现有的大型语言模型(LLM)评测基准主要关注任务完成度,例如文本生成、问答等。这些基准忽略了对LLM基础认知能力的评估,无法有效区分LLM与人类智能的差异。具体来说,现有方法缺乏对抽象关系推理、工作记忆和认知灵活性的系统性评估,而这些能力是人类认知的重要组成部分。

核心思路:论文的核心思路是借鉴神经心理学中的经典认知测试,构建新的LLM评测基准。通过将这些测试改编为适合LLM的形式,可以更直接地评估LLM在抽象推理、工作记忆和认知灵活性等方面的能力。这种方法能够更深入地了解LLM的认知机制,并为改进LLM提供更具针对性的指导。

技术框架:NeuroCognition基准包含三个主要的神经心理学测试的改编版本:1) 瑞文推理测验(Raven's Progressive Matrices):评估抽象关系推理能力。2) 空间工作记忆(Spatial Working Memory):评估维护和系统搜索能力。3) 威斯康星卡片分类测验(Wisconsin Card Sorting Test):评估认知灵活性。针对每个测试,论文设计了相应的输入和输出格式,以便LLM能够进行处理和回答。整个评估流程包括:输入测试题目,LLM生成答案,以及根据预定义的规则对答案进行评分。

关键创新:该论文的关键创新在于将神经心理学测试引入LLM评估领域。与传统的任务完成度基准相比,NeuroCognition基准能够更直接地评估LLM的基础认知能力。此外,该基准还考虑了不同模态(文本和图像)和不同复杂度对LLM性能的影响,从而提供了更全面的评估结果。

关键设计:在瑞文推理测验中,论文设计了不同难度的矩阵推理题目,要求LLM选择正确的选项来完成矩阵。在空间工作记忆测试中,LLM需要记住一系列空间位置,并按照一定的顺序进行回忆。在威斯康星卡片分类测验中,LLM需要根据反馈信息来学习卡片分类规则,并根据规则的变化进行调整。论文还探索了不同的提示策略,以提高LLM在这些测试中的表现。此外,论文还分析了LLM在不同测试中的错误类型,以了解其认知缺陷。

📊 实验亮点

实验结果表明,LLM在文本模态下的NeuroCognition测试中表现较好,但在图像模态下性能显著下降。随着测试复杂度的增加,LLM的性能也随之下降。此外,研究发现,复杂的推理策略并不总是有效,而简单的、类人的策略可以带来一定的性能提升。NeuroCognition基准与现有的通用能力基准呈正相关,但同时也测量了不同的认知能力。

🎯 应用场景

该研究成果可应用于LLM的认知能力评估与提升。通过NeuroCognition基准,可以更全面地了解LLM的认知优势与不足,从而指导LLM的架构设计、训练方法和应用开发。此外,该基准还可以用于比较不同LLM的认知能力,为用户选择合适的LLM提供参考。未来,该研究有望推动LLM在需要复杂认知能力的应用场景中的发展,例如智能决策、问题解决和创造性设计。

📄 摘要(原文)

Large language models (LLMs) exhibit a unified "general factor" of capability across 10 benchmarks, a finding confirmed by our factor analysis of 156 models, yet they still struggle with simple, trivial tasks for humans. This is because current benchmarks focus on task completion, failing to probe the foundational cognitive abilities that highlight these behaviors. We address this by introducing the NeuroCognition benchmark, grounded in three adapted neuropsychological tests: Raven's Progressive Matrices (abstract relational reasoning), Spatial Working Memory (maintenance and systematic search), and the Wisconsin Card Sorting Test (cognitive flexibility). Our evaluation reveals that while models perform strongly on text, their performance degrades for images and with increased complexity. Furthermore, we observe that complex reasoning is not universally beneficial, whereas simple, human-like strategies yield partial gains. We also find that NeuroCognition correlates positively with standard general-capability benchmarks, while still measuring distinct cognitive abilities beyond them. Overall, NeuroCognition emphasizes where current LLMs align with human-like intelligence and where they lack core adaptive cognition, showing the potential to serve as a verifiable, scalable source for improving LLMs.