From Solver to Tutor: Evaluating the Pedagogical Intelligence of LLMs with KMP-Bench

作者: Weikang Shi, Houxing Ren, Junting Pan, Aojun Zhou, Ke Wang, Zimu Lu, Yunqiao Yang, Yuxuan Hu, Linda Wei, Mingjie Zhan, Hongsheng Li

分类: cs.CL, cs.LG

发布日期: 2026-03-03

💡 一句话要点

KMP-Bench：评估LLM在K-8数学教学中教学智能的综合基准

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 数学辅导 教学智能 基准测试 多轮对话 K-8教育 错误检测 问题生成

📋 核心要点

现有LLM数学辅导评估方法缺乏对多轮教学交互和教学原则的全面考量。
提出KMP-Bench基准，包含KMP-Dialogue和KMP-Skills两个模块，分别评估教学对话能力和基础辅导技能。
实验表明，LLM在可验证解的任务上表现良好，但在教学原则应用上存在不足，KMP-Pile微调可显著提升性能。

📝 摘要（中文）

大型语言模型（LLM）在AI数学辅导方面显示出巨大的潜力，但目前的评估通常依赖于简单的指标或狭窄的教学场景，无法评估全面、多轮的教学效果。本文提出了KMP-Bench，这是一个全面的K-8数学教学基准，旨在从两个互补的角度评估LLM。第一个模块KMP-Dialogue，根据六个核心原则（例如，挑战性、解释性、反馈）评估整体教学能力，利用通过整合各种教学组件构建的新型多轮对话数据集。第二个模块KMP-Skills，对基础辅导能力进行细粒度评估，包括多轮问题解决、错误检测和纠正以及问题生成。在KMP-Bench上的评估揭示了一个关键差异：虽然领先的LLM擅长具有可验证解决方案的任务，但它们在教学原则的细微应用方面存在困难。此外，我们还提出了KMP-Pile，一个大规模（150K）对话数据集。在KMP-Pile上微调的模型在KMP-Bench上表现出显着改进，突出了富含教学内容的训练数据对于开发更有效的AI数学辅导的重要性。

🔬 方法详解

问题定义：现有的大语言模型在数学辅导领域展现出潜力，但缺乏一个综合性的评估基准来衡量其教学能力，尤其是在多轮对话和教学原则的应用方面。现有的评估方法往往过于简化，无法真实反映LLM在实际教学场景中的表现。因此，需要一个更全面、细致的基准来评估LLM的教学智能。

核心思路：KMP-Bench的核心思路是从两个互补的角度评估LLM的教学能力：一是通过KMP-Dialogue评估LLM在多轮对话中应用教学原则的能力；二是通过KMP-Skills评估LLM在问题解决、错误检测和问题生成等基础辅导技能上的表现。通过这两个模块的综合评估，可以更全面地了解LLM的教学智能。

技术框架：KMP-Bench包含两个主要模块：KMP-Dialogue和KMP-Skills。KMP-Dialogue模块使用一个多轮对话数据集，该数据集根据六个核心教学原则（挑战性、解释性、反馈等）构建，用于评估LLM在对话中应用这些原则的能力。KMP-Skills模块则包含一系列任务，用于评估LLM在问题解决、错误检测和纠正以及问题生成等方面的能力。此外，论文还提出了一个大规模对话数据集KMP-Pile，用于微调LLM，以提高其在KMP-Bench上的表现。

关键创新：KMP-Bench的关键创新在于其综合性和细粒度。它不仅评估LLM在解决数学问题方面的能力，还评估其在应用教学原则和进行多轮对话方面的能力。此外，KMP-Bench还提供了一个大规模的对话数据集KMP-Pile，用于微调LLM，从而提高其教学能力。与现有方法相比，KMP-Bench能够更全面、更准确地评估LLM的教学智能。

关键设计：KMP-Dialogue模块的关键设计在于其多轮对话数据集，该数据集根据六个核心教学原则构建，每个原则都有相应的评估指标。KMP-Skills模块的关键设计在于其任务的多样性，包括问题解决、错误检测和纠正以及问题生成等，这些任务可以全面评估LLM的基础辅导技能。KMP-Pile数据集的关键设计在于其规模，包含150K个对话，可以有效地微调LLM，提高其在KMP-Bench上的表现。具体的参数设置、损失函数和网络结构等技术细节在论文中未详细描述，属于未知信息。

🖼️ 关键图片

📊 实验亮点

实验结果表明，领先的LLM在具有可验证解决方案的任务上表现出色，但在教学原则的细微应用方面存在困难。通过在KMP-Pile数据集上进行微调，LLM在KMP-Bench上的表现得到显著提升，验证了富含教学内容的训练数据对于开发更有效的AI数学辅导的重要性。具体性能提升数据未知。

🎯 应用场景

该研究成果可应用于开发更有效的AI数学辅导系统，为K-8学生提供个性化的学习体验。通过KMP-Bench评估和改进LLM的教学能力，可以提升AI辅导的质量和效果，最终促进学生的数学学习。

📄 摘要（原文）

Large Language Models (LLMs) show significant potential in AI mathematical tutoring, yet current evaluations often rely on simplistic metrics or narrow pedagogical scenarios, failing to assess comprehensive, multi-turn teaching effectiveness. In this paper, we introduce KMP-Bench, a comprehensive K-8 Mathematical Pedagogical Benchmark designed to assess LLMs from two complementary perspectives. The first module, KMP-Dialogue, evaluates holistic pedagogical capabilities against six core principles (e.g., Challenge, Explanation, Feedback), leveraging a novel multi-turn dialogue dataset constructed by weaving together diverse pedagogical components. The second module, KMP-Skills, provides a granular assessment of foundational tutoring abilities, including multi-turn problem-solving, error detection and correction, and problem generation. Our evaluations on KMP-Bench reveal a key disparity: while leading LLMs excel at tasks with verifiable solutions, they struggle with the nuanced application of pedagogical principles. Additionally, we present KMP-Pile, a large-scale (150K) dialogue dataset. Models fine-tuned on KMP-Pile show substantial improvement on KMP-Bench, underscoring the value of pedagogically-rich training data for developing more effective AI math tutors.

From Solver to Tutor: Evaluating the Pedagogical Intelligence of LLMs with KMP-Bench

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理