Knowledge Distillation of LLM for Automatic Scoring of Science Education Assessments
作者: Ehsan Latif, Luyang Fang, Ping Ma, Xiaoming Zhai
分类: cs.CL, cs.AI
发布日期: 2023-12-26 (更新: 2024-06-11)
备注: Accepted to AIED2024
💡 一句话要点
提出基于知识蒸馏的LLM压缩方法,用于科学教育评估自动评分。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 知识蒸馏 大型语言模型 自动评分 科学教育评估 模型压缩
📋 核心要点
- 现有大型语言模型部署在资源受限设备上存在挑战,需要更高效的模型。
- 利用知识蒸馏技术,将大型语言模型的知识迁移到小型神经网络模型。
- 实验表明,该方法在保持准确率的同时,显著减小了模型大小和推理时间。
📝 摘要(中文)
本研究提出了一种知识蒸馏(KD)方法,将微调的大型语言模型(LLM)压缩为更小、更高效、更准确的神经网络,旨在解决在资源受限设备上部署这些模型的问题。该方法使用LLM(作为教师模型)的预测概率(作为软标签)来训练较小的学生模型(神经网络)。通过专门设计的损失函数,学生模型可以学习LLM的输出概率,从而模仿教师模型的性能。为了验证KD方法的性能,使用了包含6684个学生对科学问题书面回答的7T数据集,以及三个人工专家评分的数学推理数据集。实验结果表明,KD方法的评分准确率分别比ANN和TinyBERT高3%和2%,并且与教师模型相当。此外,学生模型的大小为0.03M,参数量比教师模型小4000倍,推理速度快10倍。这项研究的意义在于其有潜力使先进的AI技术在典型的教育环境中得到应用,特别是在自动评分方面。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)在资源受限设备上部署的难题,特别是在科学教育评估自动评分场景下。现有LLM虽然性能强大,但模型体积庞大,计算资源需求高,难以在教育机构的普通设备上运行。因此,需要一种方法将LLM的知识迁移到更小的模型,同时保持较高的评分准确率。
核心思路:论文的核心思路是利用知识蒸馏(Knowledge Distillation, KD)技术。具体而言,将预训练并微调的LLM作为教师模型,利用其输出的软标签(预测概率)来指导训练一个更小的神经网络(学生模型)。通过让学生模型学习教师模型的预测分布,使其能够模仿教师模型的行为,从而在模型压缩的同时保留LLM的知识。
技术框架:整体框架包含两个主要阶段:1) 教师模型训练阶段:首先,使用科学教育评估数据集对LLM进行微调,使其能够准确地对学生的答案进行评分。2) 学生模型训练阶段:然后,使用相同的训练数据,让教师模型对数据进行预测,得到软标签。学生模型以这些软标签为目标,通过最小化一个专门设计的损失函数进行训练。该损失函数旨在衡量学生模型的预测分布与教师模型预测分布之间的差异。
关键创新:该研究的关键创新在于将知识蒸馏技术应用于科学教育评估自动评分任务,并成功地将大型语言模型的知识迁移到小型神经网络模型中。与直接训练小型模型相比,知识蒸馏能够显著提高小型模型的性能,使其能够达到与大型模型相当的准确率。此外,该研究还针对自动评分任务设计了特定的损失函数,以更好地利用教师模型的输出信息。
关键设计:在学生模型训练阶段,使用了交叉熵损失函数来衡量学生模型预测分布与教师模型预测分布之间的差异。此外,还引入了一个温度参数来平滑教师模型的预测分布,从而使学生模型更容易学习。学生模型的网络结构采用了一个简单的多层感知机(MLP),以保证模型体积足够小。实验中,学生模型的大小被控制在0.03M,远小于教师模型。
📊 实验亮点
实验结果表明,基于知识蒸馏的学生模型在科学教育评估数据集上取得了显著的性能提升。与传统的ANN模型相比,评分准确率提高了3%;与SOTA的蒸馏模型TinyBERT相比,评分准确率提高了2%。更重要的是,学生模型的大小仅为0.03M,比教师模型小4000倍,推理速度快10倍,实现了模型压缩和性能提升的双重目标。
🎯 应用场景
该研究成果可广泛应用于教育领域,特别是在大规模在线教育和个性化学习场景中。通过将大型语言模型的知识迁移到小型设备上,可以实现低成本、高效的自动评分系统,减轻教师负担,提高评分效率,并为学生提供及时的反馈。此外,该方法还可以应用于其他自然语言处理任务,例如文本分类、情感分析等。
📄 摘要(原文)
This study proposes a method for knowledge distillation (KD) of fine-tuned Large Language Models (LLMs) into smaller, more efficient, and accurate neural networks. We specifically target the challenge of deploying these models on resource-constrained devices. Our methodology involves training the smaller student model (Neural Network) using the prediction probabilities (as soft labels) of the LLM, which serves as a teacher model. This is achieved through a specialized loss function tailored to learn from the LLM's output probabilities, ensuring that the student model closely mimics the teacher's performance. To validate the performance of the KD approach, we utilized a large dataset, 7T, containing 6,684 student-written responses to science questions and three mathematical reasoning datasets with student-written responses graded by human experts. We compared accuracy with state-of-the-art (SOTA) distilled models, TinyBERT, and artificial neural network (ANN) models. Results have shown that the KD approach has 3% and 2% higher scoring accuracy than ANN and TinyBERT, respectively, and comparable accuracy to the teacher model. Furthermore, the student model size is 0.03M, 4,000 times smaller in parameters and x10 faster in inferencing than the teacher model and TinyBERT, respectively. The significance of this research lies in its potential to make advanced AI technologies accessible in typical educational settings, particularly for automatic scoring.