From Prompting to Preference Optimization: A Comparative Study of LLM-based Automated Essay Scoring

作者: Minh Hoang Nguyen, Vu Hoang Pham, Xuan Thanh Huynh, Phuc Hong Mai, Vinh The Nguyen, Quang Nhut Huynh, Huy Tien Nguyen, Tung Le

分类: cs.CL

发布日期: 2026-03-06

备注: 19 pages, 10 figures, 7 tables

🔗 代码/项目: GITHUB

💡 一句话要点

对比研究LLM在自动作文评分中的应用，揭示不同策略的权衡与优势。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 自动作文评分 大型语言模型 英语写作 指令调优 检索增强生成

📋 核心要点

现有研究对LLM在自动作文评分（AES）中的应用缺乏系统性比较，难以评估不同方法的优劣。
本文提出一个统一的基准，对比评估四种主流的基于LLM的AES方法，揭示其准确性、成本和鲁棒性之间的权衡。
实验结果表明，结合k-SFT和RAG的方法在雅思写作Task 2上表现最佳，F1-Score达到93%，具有实际应用潜力。

📝 摘要（中文）

大型语言模型（LLMs）最近重塑了自动作文评分（AES）领域，但以往的研究通常孤立地考察各种技术，限制了对它们在英语作为第二语言（L2）写作中的相对优点的理解。为了弥合这一差距，本文对基于LLM的AES主要范式在雅思写作Task 2上进行了全面比较。在一个统一的基准上，我们评估了四种方法：（i）基于编码器的分类微调，（ii）零样本和少样本提示，（iii）指令调优和检索增强生成（RAG），以及（iv）监督微调（SFT）结合直接偏好优化（DPO）和RAG。我们的结果揭示了不同方法之间清晰的准确性-成本-鲁棒性权衡。最佳配置，即集成k-SFT和RAG，实现了最强的整体结果，F1-Score达到93%。这项研究首次对现代基于LLM的英语L2 AES策略进行了统一的实证比较，有望在自动评分写作任务中发挥潜力。

🔬 方法详解

问题定义：论文旨在解决英语作为第二语言（L2）写作的自动作文评分（AES）问题。现有方法通常孤立地研究各种LLM技术，缺乏统一的比较和分析，难以确定哪种方法最适合特定场景，并且忽略了准确性、成本和鲁棒性之间的权衡。

核心思路：论文的核心思路是通过在一个统一的基准上，对多种主流的基于LLM的AES方法进行对比评估，从而揭示它们在准确性、成本和鲁棒性方面的权衡。通过实证研究，为实际应用提供选择合适方法的指导。

技术框架：论文的整体框架包括以下几个主要阶段：1) 数据集准备：使用雅思写作Task 2数据集作为统一的评估基准。2) 方法选择：选择四种主流的基于LLM的AES方法进行评估，包括编码器微调、提示学习、指令调优和偏好优化。3) 模型训练与评估：对每种方法进行训练和评估，并记录其性能指标（如F1-Score）。4) 结果分析：对比不同方法的性能，分析其优缺点，并总结其适用场景。

关键创新：论文的关键创新在于首次对多种基于LLM的AES方法进行了统一的实证比较，并揭示了它们在准确性、成本和鲁棒性方面的权衡。此外，论文还发现结合k-SFT和RAG的方法在雅思写作Task 2上表现最佳，为实际应用提供了有价值的参考。

关键设计：论文的关键设计包括：1) 统一的评估基准：使用雅思写作Task 2数据集，确保不同方法在相同的条件下进行评估。2) 多种方法的对比：选择四种主流的基于LLM的AES方法，覆盖了不同的技术范式。3) 详细的性能分析：记录每种方法的性能指标，并进行对比分析，揭示其优缺点。4) k-SFT和RAG的集成：实验发现结合k-SFT和RAG的方法表现最佳，可能涉及对SFT模型进行知识蒸馏或使用RAG增强SFT模型的生成能力，具体细节未知。

🖼️ 关键图片

📊 实验亮点

实验结果表明，结合k-SFT和RAG的方法在雅思写作Task 2上表现最佳，F1-Score达到93%。该方法优于其他三种方法，证明了其在自动作文评分方面的有效性。研究揭示了不同方法在准确性、成本和鲁棒性方面的权衡，为实际应用提供了选择合适方法的指导。

🎯 应用场景

该研究成果可应用于在线教育平台、语言学习App等场景，实现对英语学习者的作文进行自动评分和反馈，提高教学效率和学习效果。此外，该研究还可以为LLM在教育领域的应用提供参考，推动AI在教育领域的创新。

📄 摘要（原文）

Large language models (LLMs) have recently reshaped Automated Essay Scoring (AES), yet prior studies typically examine individual techniques in isolation, limiting understanding of their relative merits for English as a Second Language (L2) writing. To bridge this gap, we presents a comprehensive comparison of major LLM-based AES paradigms on IELTS Writing Task~2. On this unified benchmark, we evaluate four approaches: (i) encoder-based classification fine-tuning, (ii) zero- and few-shot prompting, (iii) instruction tuning and Retrieval-Augmented Generation (RAG), and (iv) Supervised Fine-Tuning combined with Direct Preference Optimization (DPO) and RAG. Our results reveal clear accuracy-cost-robustness trade-offs across methods, the best configuration, integrating k-SFT and RAG, achieves the strongest overall results with F1-Score 93%. This study offers the first unified empirical comparison of modern LLM-based AES strategies for English L2, promising potential in auto-grading writing tasks. Code is public at https://github.com/MinhNguyenDS/LLM_AES-EnL2

From Prompting to Preference Optimization: A Comparative Study of LLM-based Automated Essay Scoring

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理