From Solver to Tutor: Evaluating the Pedagogical Intelligence of LLMs with KMP-Bench
作者: Weikang Shi, Houxing Ren, Junting Pan, Aojun Zhou, Ke Wang, Zimu Lu, Yunqiao Yang, Yuxuan Hu, Linda Wei, Mingjie Zhan, Hongsheng Li
分类: cs.CL, cs.LG
发布日期: 2026-03-03
💡 一句话要点
KMP-Bench:评估LLM在K-8数学教学中教学智能的综合基准
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 数学辅导 教学智能 基准测试 多轮对话 K-8教育 错误检测 问题生成
📋 核心要点
- 现有LLM数学辅导评估方法缺乏对多轮教学交互和教学原则的全面考量。
- 提出KMP-Bench基准,包含KMP-Dialogue和KMP-Skills两个模块,分别评估教学对话能力和基础辅导技能。
- 实验表明,LLM在可验证解的任务上表现良好,但在教学原则应用上存在不足,KMP-Pile微调可显著提升性能。
📝 摘要(中文)
大型语言模型(LLM)在AI数学辅导方面显示出巨大的潜力,但目前的评估通常依赖于简单的指标或狭窄的教学场景,无法评估全面、多轮的教学效果。本文提出了KMP-Bench,这是一个全面的K-8数学教学基准,旨在从两个互补的角度评估LLM。第一个模块KMP-Dialogue,根据六个核心原则(例如,挑战性、解释性、反馈)评估整体教学能力,利用通过整合各种教学组件构建的新型多轮对话数据集。第二个模块KMP-Skills,对基础辅导能力进行细粒度评估,包括多轮问题解决、错误检测和纠正以及问题生成。在KMP-Bench上的评估揭示了一个关键差异:虽然领先的LLM擅长具有可验证解决方案的任务,但它们在教学原则的细微应用方面存在困难。此外,我们还提出了KMP-Pile,一个大规模(150K)对话数据集。在KMP-Pile上微调的模型在KMP-Bench上表现出显着改进,突出了富含教学内容的训练数据对于开发更有效的AI数学辅导的重要性。
🔬 方法详解
问题定义:现有的大语言模型在数学辅导领域展现出潜力,但缺乏一个综合性的评估基准来衡量其教学能力,尤其是在多轮对话和教学原则的应用方面。现有的评估方法往往过于简化,无法真实反映LLM在实际教学场景中的表现。因此,需要一个更全面、细致的基准来评估LLM的教学智能。
核心思路:KMP-Bench的核心思路是从两个互补的角度评估LLM的教学能力:一是通过KMP-Dialogue评估LLM在多轮对话中应用教学原则的能力;二是通过KMP-Skills评估LLM在问题解决、错误检测和问题生成等基础辅导技能上的表现。通过这两个模块的综合评估,可以更全面地了解LLM的教学智能。
技术框架:KMP-Bench包含两个主要模块:KMP-Dialogue和KMP-Skills。KMP-Dialogue模块使用一个多轮对话数据集,该数据集根据六个核心教学原则(挑战性、解释性、反馈等)构建,用于评估LLM在对话中应用这些原则的能力。KMP-Skills模块则包含一系列任务,用于评估LLM在问题解决、错误检测和纠正以及问题生成等方面的能力。此外,论文还提出了一个大规模对话数据集KMP-Pile,用于微调LLM,以提高其在KMP-Bench上的表现。
关键创新:KMP-Bench的关键创新在于其综合性和细粒度。它不仅评估LLM在解决数学问题方面的能力,还评估其在应用教学原则和进行多轮对话方面的能力。此外,KMP-Bench还提供了一个大规模的对话数据集KMP-Pile,用于微调LLM,从而提高其教学能力。与现有方法相比,KMP-Bench能够更全面、更准确地评估LLM的教学智能。
关键设计:KMP-Dialogue模块的关键设计在于其多轮对话数据集,该数据集根据六个核心教学原则构建,每个原则都有相应的评估指标。KMP-Skills模块的关键设计在于其任务的多样性,包括问题解决、错误检测和纠正以及问题生成等,这些任务可以全面评估LLM的基础辅导技能。KMP-Pile数据集的关键设计在于其规模,包含150K个对话,可以有效地微调LLM,提高其在KMP-Bench上的表现。具体的参数设置、损失函数和网络结构等技术细节在论文中未详细描述,属于未知信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,领先的LLM在具有可验证解决方案的任务上表现出色,但在教学原则的细微应用方面存在困难。通过在KMP-Pile数据集上进行微调,LLM在KMP-Bench上的表现得到显著提升,验证了富含教学内容的训练数据对于开发更有效的AI数学辅导的重要性。具体性能提升数据未知。
🎯 应用场景
该研究成果可应用于开发更有效的AI数学辅导系统,为K-8学生提供个性化的学习体验。通过KMP-Bench评估和改进LLM的教学能力,可以提升AI辅导的质量和效果,最终促进学生的数学学习。
📄 摘要(原文)
Large Language Models (LLMs) show significant potential in AI mathematical tutoring, yet current evaluations often rely on simplistic metrics or narrow pedagogical scenarios, failing to assess comprehensive, multi-turn teaching effectiveness. In this paper, we introduce KMP-Bench, a comprehensive K-8 Mathematical Pedagogical Benchmark designed to assess LLMs from two complementary perspectives. The first module, KMP-Dialogue, evaluates holistic pedagogical capabilities against six core principles (e.g., Challenge, Explanation, Feedback), leveraging a novel multi-turn dialogue dataset constructed by weaving together diverse pedagogical components. The second module, KMP-Skills, provides a granular assessment of foundational tutoring abilities, including multi-turn problem-solving, error detection and correction, and problem generation. Our evaluations on KMP-Bench reveal a key disparity: while leading LLMs excel at tasks with verifiable solutions, they struggle with the nuanced application of pedagogical principles. Additionally, we present KMP-Pile, a large-scale (150K) dialogue dataset. Models fine-tuned on KMP-Pile show substantial improvement on KMP-Bench, underscoring the value of pedagogically-rich training data for developing more effective AI math tutors.