MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation

📄 arXiv: 2312.17080v4 📥 PDF

作者: Zhongshen Zeng, Pengguang Chen, Shu Liu, Haiyun Jiang, Jiaya Jia

分类: cs.CL

发布日期: 2023-12-28 (更新: 2024-06-05)

备注: Code: https://github.com/dvlab-research/MR-GSM8K


💡 一句话要点

提出MR-GSM8K基准,用于评估大语言模型的元推理能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型评估 元推理 GSM8K 基准测试 认知能力 推理能力 数学问题 模型诊断

📋 核心要点

  1. 现有LLM评估侧重于结果,忽略推理过程,难以区分模型认知能力。
  2. 提出元推理评估范式,让模型评估其他模型的推理过程,更全面。
  3. 构建MR-GSM8K基准,实验表明现有模型在元推理上存在显著差距。

📝 摘要(中文)

本文提出了一种新颖的大语言模型(LLM)评估范式,该范式要求模型从传统的问答角色(类似于学生)转变为解决方案评分角色(类似于教师)。这种范式侧重于“推理的推理”,因此被称为元推理,它将重点从通常忽略推理过程的面向结果的评估,转变为更全面的评估,从而有效地区分不同模型的认知能力。通过在GSM8K数据集上应用这种范式,我们开发了MR-GSM8K基准。我们对来自开源和商业领域的几种最先进的模型进行了广泛的分析,揭示了它们在训练和评估方法中的根本缺陷。值得注意的是,虽然像Deepseek-v2和Claude3-Sonnet这样的模型在GSM8K中与GPT-4的竞争非常激烈,但它们在MR-GSM8K中的性能差异却急剧扩大,差异扩大到超过20个绝对点,突显了我们的元推理方法所带来的重大挑战。

🔬 方法详解

问题定义:现有的大语言模型评估方法,例如在GSM8K数据集上的评估,主要关注模型能否给出正确的答案,而忽略了模型是如何推理得到答案的。这种面向结果的评估方式无法有效区分不同模型的认知能力,也无法准确反映模型在复杂推理任务上的表现。现有方法的痛点在于缺乏对模型推理过程的深入评估。

核心思路:本文的核心思路是将大语言模型的评估任务从传统的“解题”转变为“判题”,即让模型评估其他模型给出的解题过程是否正确、合理。通过评估模型对推理过程的理解和判断能力,可以更全面、深入地了解模型的认知能力和推理水平。这种“推理的推理”的元推理方法能够更有效地发现模型在推理方面的缺陷。

技术框架:MR-GSM8K基准的构建主要包括以下几个步骤:首先,收集GSM8K数据集中的数学问题;然后,利用不同的LLM生成针对这些问题的多种解答,包括正确和错误的解答;接着,要求待评估的LLM对这些解答进行评分和解释,判断其推理过程是否正确;最后,根据LLM的评分和解释,评估其元推理能力。整个流程的核心在于构建包含多种解答的评估数据集,并设计合理的评分和评估指标。

关键创新:本文最重要的技术创新点在于提出了元推理的评估范式,将LLM的评估任务从解题转变为判题。与传统的面向结果的评估方法相比,元推理评估能够更全面地评估LLM的认知能力和推理水平,更有效地发现模型在推理方面的缺陷。这种评估范式为LLM的训练和改进提供了新的思路。

关键设计:MR-GSM8K基准的关键设计包括:1) 构建包含多种解答(包括正确和错误解答)的评估数据集,以考察LLM的判别能力;2) 设计合理的评分指标,例如准确率、召回率等,以量化LLM的元推理能力;3) 鼓励LLM给出评分的理由和解释,以便更深入地了解其推理过程。

📊 实验亮点

实验结果表明,在传统的GSM8K基准上表现接近GPT-4的Deepseek-v2和Claude3-Sonnet等模型,在MR-GSM8K基准上的性能与GPT-4的差距显著扩大,绝对差异超过20个百分点。这表明MR-GSM8K基准能够更有效地评估LLM的元推理能力,并揭示现有模型在推理方面的不足。

🎯 应用场景

该研究成果可应用于大语言模型的评估、诊断和改进。通过MR-GSM8K基准,可以更全面地了解LLM的认知能力和推理水平,发现模型在推理方面的缺陷,从而指导模型的训练和改进。此外,该研究还可以应用于教育领域,例如自动评估学生的解题过程,提供个性化的学习建议。

📄 摘要(原文)

In this work, we introduce a novel evaluation paradigm for Large Language Models (LLMs) that compels them to transition from a traditional question-answering role, akin to a student, to a solution-scoring role, akin to a teacher. This paradigm, focusing on "reasoning about reasoning," hence termed meta-reasoning, shifts the emphasis from result-oriented assessments, which often neglect the reasoning process, to a more comprehensive evaluation that effectively distinguishes between the cognitive capabilities of different models. By applying this paradigm in the GSM8K dataset, we have developed the MR-GSM8K benchmark. Our extensive analysis includes several state-of-the-art models from both open-source and commercial domains, uncovering fundamental deficiencies in their training and evaluation methodologies. Notably, while models like Deepseek-v2 and Claude3-Sonnet closely competed with GPT-4 in GSM8K, their performance disparities expanded dramatically in MR-GSM8K, with differences widening to over 20 absolute points, underscoring the significant challenge posed by our meta-reasoning approach.