Faster, Cheaper, More Accurate: Specialised Knowledge Tracing Models Outperform LLMs

📄 arXiv: 2603.02830v1 📥 PDF

作者: Prarthana Bhattacharyya, Joshua Mitton, Ralph Abboud, Simon Woodhead

分类: cs.CL, cs.AI

发布日期: 2026-03-03

备注: 7 pages, 6 figures. Prarthana Bhattacharyya and Joshua Mitton contributed equally to this work


💡 一句话要点

知识追踪模型在教育预测任务中优于大型语言模型,更快速、经济、准确

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 知识追踪 大型语言模型 教育预测 领域特定模型 模型对比

📋 核心要点

  1. 现有方法难以兼顾教育领域预测的准确性、速度和成本,通用LLM的适用性存疑。
  2. 论文核心在于对比领域知识追踪模型(KT)与大型语言模型(LLM)在教育预测任务上的性能。
  3. 实验表明,KT模型在准确率和F1值上优于LLM,且推理速度更快,部署成本更低。

📝 摘要(中文)

预测学生对未来问题的回答对于教育学习平台至关重要,这有助于进行有效的干预。知识追踪(KT)模型是实现这一目标的关键方法。这些模型是小型的、特定领域的时序模型,基于学生的问题-回答数据进行训练。KT模型针对特定教育领域的高准确性进行了优化,并具有快速的推理和可扩展的部署。大型语言模型(LLM)的兴起促使我们提出以下问题:(1)LLM在预测学生未来问题回答方面的表现如何?(2)LLM是否适用于该领域?(3)LLM与KT模型在该领域特定任务上的表现如何?在本文中,我们比较了多个LLM和KT模型在预测性能、部署成本和推理速度方面的表现,以回答上述问题。我们表明,KT模型在该领域特定任务上的准确性和F1分数均优于LLM。此外,我们证明LLM比KT模型慢几个数量级,并且部署成本高几个数量级。这突出了领域特定模型对于教育预测任务的重要性,以及当前闭源LLM不应被用作所有任务的通用解决方案。

🔬 方法详解

问题定义:论文旨在解决教育领域中预测学生对未来问题的回答这一问题。现有方法,特别是通用的大型语言模型(LLM),虽然在很多任务上表现出色,但在教育预测任务中,可能无法兼顾准确性、推理速度和部署成本。通用LLM的训练数据和模型结构并非专门为教育领域优化,可能导致性能瓶颈。

核心思路:论文的核心思路是对比领域特定的知识追踪(KT)模型与通用LLM在教育预测任务上的表现。KT模型是专门为教育领域设计的,能够更好地捕捉学生的知识状态和学习过程,从而提高预测准确性。同时,KT模型通常比LLM小得多,推理速度更快,部署成本更低。

技术框架:论文的整体框架包括以下几个步骤:首先,选择合适的KT模型和LLM进行比较。其次,在教育数据集上训练和评估这些模型。第三,比较它们的预测准确性、推理速度和部署成本。最后,分析实验结果,得出结论。

关键创新:论文的关键创新在于对KT模型和LLM在教育预测任务上的性能进行了全面的对比分析。以往的研究可能更多地关注LLM在教育领域的应用,而忽略了领域特定模型的重要性。该论文强调了领域特定模型在某些任务上可能优于通用模型,并提供了实验证据。

关键设计:论文中涉及的关键设计包括:选择合适的KT模型(例如,基于深度学习的KT模型)和LLM(例如,Transformer based LLM)。使用标准的评估指标(例如,准确率、F1值)来衡量模型的预测性能。使用标准的硬件和软件环境来测量模型的推理速度和部署成本。此外,论文可能还涉及一些超参数的调整和优化,以获得最佳的实验结果。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,知识追踪模型在预测学生回答的准确率和F1值上均优于大型语言模型。同时,KT模型的推理速度比LLM快几个数量级,部署成本也低几个数量级。例如,在某个数据集上,KT模型的准确率达到X%,而LLM的准确率只有Y%。这表明,在教育预测任务中,领域特定的KT模型比通用的LLM更具优势。

🎯 应用场景

该研究成果可应用于在线教育平台、智能辅导系统等领域,帮助教师和学生更好地了解学生的学习情况,并提供个性化的学习建议。通过使用高效的知识追踪模型,可以降低平台的运营成本,提高学生的学习效率。未来,可以进一步研究如何将KT模型与LLM相结合,以充分利用两者的优势。

📄 摘要(原文)

Predicting future student responses to questions is particularly valuable for educational learning platforms where it enables effective interventions. One of the key approaches to do this has been through the use of knowledge tracing (KT) models. These are small, domain-specific, temporal models trained on student question-response data. KT models are optimised for high accuracy on specific educational domains and have fast inference and scalable deployments. The rise of Large Language Models (LLMs) motivates us to ask the following questions: (1) How well can LLMs perform at predicting students' future responses to questions? (2) Are LLMs scalable for this domain? (3) How do LLMs compare to KT models on this domain-specific task? In this paper, we compare multiple LLMs and KT models across predictive performance, deployment cost, and inference speed to answer the above questions. We show that KT models outperform LLMs with respect to accuracy and F1 scores on this domain-specific task. Further, we demonstrate that LLMs are orders of magnitude slower than KT models and cost orders of magnitude more to deploy. This highlights the importance of domain-specific models for education prediction tasks and the fact that current closed source LLMs should not be used as a universal solution for all tasks.