From Prompting to Preference Optimization: A Comparative Study of LLM-based Automated Essay Scoring
作者: Minh Hoang Nguyen, Vu Hoang Pham, Xuan Thanh Huynh, Phuc Hong Mai, Vinh The Nguyen, Quang Nhut Huynh, Huy Tien Nguyen, Tung Le
分类: cs.CL
发布日期: 2026-03-06
备注: 19 pages, 10 figures, 7 tables
🔗 代码/项目: GITHUB
💡 一句话要点
对比研究LLM在自动作文评分中的应用,揭示不同策略的权衡与优势。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 自动作文评分 大型语言模型 英语写作 指令调优 检索增强生成
📋 核心要点
- 现有研究对LLM在自动作文评分(AES)中的应用缺乏系统性比较,难以评估不同方法的优劣。
- 本文提出一个统一的基准,对比评估四种主流的基于LLM的AES方法,揭示其准确性、成本和鲁棒性之间的权衡。
- 实验结果表明,结合k-SFT和RAG的方法在雅思写作Task 2上表现最佳,F1-Score达到93%,具有实际应用潜力。
📝 摘要(中文)
大型语言模型(LLMs)最近重塑了自动作文评分(AES)领域,但以往的研究通常孤立地考察各种技术,限制了对它们在英语作为第二语言(L2)写作中的相对优点的理解。为了弥合这一差距,本文对基于LLM的AES主要范式在雅思写作Task 2上进行了全面比较。在一个统一的基准上,我们评估了四种方法:(i)基于编码器的分类微调,(ii)零样本和少样本提示,(iii)指令调优和检索增强生成(RAG),以及(iv)监督微调(SFT)结合直接偏好优化(DPO)和RAG。我们的结果揭示了不同方法之间清晰的准确性-成本-鲁棒性权衡。最佳配置,即集成k-SFT和RAG,实现了最强的整体结果,F1-Score达到93%。这项研究首次对现代基于LLM的英语L2 AES策略进行了统一的实证比较,有望在自动评分写作任务中发挥潜力。
🔬 方法详解
问题定义:论文旨在解决英语作为第二语言(L2)写作的自动作文评分(AES)问题。现有方法通常孤立地研究各种LLM技术,缺乏统一的比较和分析,难以确定哪种方法最适合特定场景,并且忽略了准确性、成本和鲁棒性之间的权衡。
核心思路:论文的核心思路是通过在一个统一的基准上,对多种主流的基于LLM的AES方法进行对比评估,从而揭示它们在准确性、成本和鲁棒性方面的权衡。通过实证研究,为实际应用提供选择合适方法的指导。
技术框架:论文的整体框架包括以下几个主要阶段:1) 数据集准备:使用雅思写作Task 2数据集作为统一的评估基准。2) 方法选择:选择四种主流的基于LLM的AES方法进行评估,包括编码器微调、提示学习、指令调优和偏好优化。3) 模型训练与评估:对每种方法进行训练和评估,并记录其性能指标(如F1-Score)。4) 结果分析:对比不同方法的性能,分析其优缺点,并总结其适用场景。
关键创新:论文的关键创新在于首次对多种基于LLM的AES方法进行了统一的实证比较,并揭示了它们在准确性、成本和鲁棒性方面的权衡。此外,论文还发现结合k-SFT和RAG的方法在雅思写作Task 2上表现最佳,为实际应用提供了有价值的参考。
关键设计:论文的关键设计包括:1) 统一的评估基准:使用雅思写作Task 2数据集,确保不同方法在相同的条件下进行评估。2) 多种方法的对比:选择四种主流的基于LLM的AES方法,覆盖了不同的技术范式。3) 详细的性能分析:记录每种方法的性能指标,并进行对比分析,揭示其优缺点。4) k-SFT和RAG的集成:实验发现结合k-SFT和RAG的方法表现最佳,可能涉及对SFT模型进行知识蒸馏或使用RAG增强SFT模型的生成能力,具体细节未知。
🖼️ 关键图片
📊 实验亮点
实验结果表明,结合k-SFT和RAG的方法在雅思写作Task 2上表现最佳,F1-Score达到93%。该方法优于其他三种方法,证明了其在自动作文评分方面的有效性。研究揭示了不同方法在准确性、成本和鲁棒性方面的权衡,为实际应用提供了选择合适方法的指导。
🎯 应用场景
该研究成果可应用于在线教育平台、语言学习App等场景,实现对英语学习者的作文进行自动评分和反馈,提高教学效率和学习效果。此外,该研究还可以为LLM在教育领域的应用提供参考,推动AI在教育领域的创新。
📄 摘要(原文)
Large language models (LLMs) have recently reshaped Automated Essay Scoring (AES), yet prior studies typically examine individual techniques in isolation, limiting understanding of their relative merits for English as a Second Language (L2) writing. To bridge this gap, we presents a comprehensive comparison of major LLM-based AES paradigms on IELTS Writing Task~2. On this unified benchmark, we evaluate four approaches: (i) encoder-based classification fine-tuning, (ii) zero- and few-shot prompting, (iii) instruction tuning and Retrieval-Augmented Generation (RAG), and (iv) Supervised Fine-Tuning combined with Direct Preference Optimization (DPO) and RAG. Our results reveal clear accuracy-cost-robustness trade-offs across methods, the best configuration, integrating k-SFT and RAG, achieves the strongest overall results with F1-Score 93%. This study offers the first unified empirical comparison of modern LLM-based AES strategies for English L2, promising potential in auto-grading writing tasks. Code is public at https://github.com/MinhNguyenDS/LLM_AES-EnL2