Evaluating Austrian A-Level German Essays with Large Language Models for Automated Essay Scoring

📄 arXiv: 2603.06066v1 📥 PDF

作者: Jonas Kubesch, Lena Huber, Clemens Havas

分类: cs.CL, cs.AI

发布日期: 2026-03-06

备注: To be presented at the SAC2026 and published in its symposium proceedings

DOI: 10.1145/3748522.3779879


💡 一句话要点

利用大语言模型评估奥地利A-Level德语作文,探索自动作文评分

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自动作文评分 大语言模型 德语作文 教育评估 提示工程

📋 核心要点

  1. 自动作文评分旨在减轻教师负担并减少主观偏见,但现有系统依赖手工特征,缺乏灵活性。
  2. 本文探索利用先进的开放权重LLM进行奥地利A-level德语作文的评分,侧重于基于评分标准的评估。
  3. 实验结果表明,LLM在子维度上与人工评分者的一致性最高为40.6%,最终成绩匹配度仅为32.8%。

📝 摘要(中文)

自动作文评分(AES)的研究已经进行了几十年,旨在通过减少教师的评分工作量和减轻主观偏见来支持教师。早期的系统依赖于手工设计的特征和统计模型,而最近大语言模型(LLM)的进步使得评估学生写作成为可能,并具有前所未有的灵活性。本文研究了最先进的开放权重LLM在奥地利A-level德语文本评分中的应用,特别关注基于评分标准的评估。处理并评估了一个包含三种文本类型的101份匿名学生试卷的数据集。使用不同的上下文和提示策略评估了四个LLM,DeepSeek-R1 32b、Qwen3 30b、Mixtral 8x7b和LLama3.3 70b。LLM在评分标准提供的子维度中,与人工评分者的最高一致性为40.6%,最终成绩与人工专家给出的成绩匹配度仅为32.8%。结果表明,即使较小的模型能够使用标准化评分标准进行德语作文评分,但它们的准确性不足以在实际评分环境中使用。

🔬 方法详解

问题定义:论文旨在解决奥地利A-level德语作文的自动评分问题。现有方法,特别是依赖手工特征的早期AES系统,存在灵活性不足和泛化能力差的痛点,难以适应不同类型的作文和评分标准。此外,主观偏见也是一个需要解决的问题。

核心思路:论文的核心思路是利用近年来快速发展的大语言模型(LLM)的强大文本理解和生成能力,直接对德语作文进行评分。通过适当的提示工程(Prompt Engineering),引导LLM模拟人工评分者的行为,并根据预定义的评分标准进行评估。

技术框架:整体流程包括数据预处理、模型选择、提示设计和结果评估四个主要阶段。首先,对包含101篇学生作文的数据集进行匿名化处理。然后,选择DeepSeek-R1 32b、Qwen3 30b、Mixtral 8x7b和LLama3.3 70b四个开放权重的LLM。接下来,设计不同的提示策略,包括提供评分标准、上下文信息等。最后,将LLM的评分结果与人工评分结果进行比较,评估模型的性能。

关键创新:论文的关键创新在于探索了开放权重LLM在德语作文自动评分中的应用,并特别关注了基于评分标准的评估。与以往的研究相比,该方法避免了手工特征工程的繁琐过程,并能够更好地利用LLM的语言理解能力。此外,论文还比较了不同LLM在德语作文评分任务上的性能。

关键设计:论文的关键设计包括:1) 选择了四个不同规模和架构的开放权重LLM,以便比较不同模型的性能;2) 设计了多种提示策略,以探索最佳的提示方式;3) 使用了标准的评分标准,以便进行客观的评估;4) 采用了多种评估指标,包括与人工评分者的一致性和最终成绩的匹配度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,即使是较小的模型也能够使用标准化评分标准进行德语作文评分,但准确性仍有待提高。LLM在评分标准提供的子维度中,与人工评分者的最高一致性为40.6%,最终成绩与人工专家给出的成绩匹配度仅为32.8%。这表明,当前LLM在德语作文自动评分方面仍存在一定的局限性,需要进一步的研究和改进。

🎯 应用场景

该研究成果可应用于教育领域,辅助教师进行作文批改,减轻教师工作负担,并提高评分的客观性和一致性。未来,可以进一步优化模型和提示策略,提高自动评分的准确性和可靠性,最终实现完全自动化的作文评分系统。此外,该方法也可以推广到其他语言和学科的作文评分任务中。

📄 摘要(原文)

Automated Essay Scoring (AES) has been explored for decades with the goal to support teachers by reducing grading workload and mitigating subjective biases. While early systems relied on handcrafted features and statistical models, recent advances in Large Language Models (LLMs) have made it possible to evaluate student writing with unprecedented flexibility. This paper investigates the application of state-of-the-art open-weight LLMs for the grading of Austrian A-level German texts, with a particular focus on rubric-based evaluation. A dataset of 101 anonymised student exams across three text types was processed and evaluated. Four LLMs, DeepSeek-R1 32b, Qwen3 30b, Mixtral 8x7b and LLama3.3 70b, were evaluated with different contexts and prompting strategies. The LLMs were able to reach a maximum of 40.6% agreement with the human rater in the rubric-provided sub-dimensions, and only 32.8% of final grades matched the ones given by a human expert. The results indicate that even though smaller models are able to use standardised rubrics for German essay grading, they are not accurate enough to be used in a real-world grading environment.