LLM Agents at the Roundtable: A Multi-Perspective and Dialectical Reasoning Framework for Essay Scoring

📄 arXiv: 2509.14834v2 📥 PDF

作者: Jinhee Jang, Ayoung Moon, Minkyoung Jung, YoungBin Kim, Seung Jin Lee

分类: cs.CL

发布日期: 2025-09-18 (更新: 2025-09-19)


💡 一句话要点

提出Roundtable Essay Scoring (RES)框架,利用多智能体辩证推理提升作文自动评分效果。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自动作文评分 大型语言模型 多智能体系统 辩证推理 零样本学习

📋 核心要点

  1. 现有自动作文评分方法难以达到人类水平的多视角理解和判断能力,评分结果与人类评估存在差距。
  2. RES框架通过构建多个具有不同视角的LLM智能体,模拟圆桌讨论,进行辩证推理,从而整合个体评估。
  3. 实验结果表明,RES框架在ASAP数据集上显著提升了自动作文评分的准确性,QWK指标提升高达34.86%。

📝 摘要(中文)

大型语言模型(LLMs)的出现为自动作文评分(AES)带来了一种新的范式,AES是自然语言处理在教育领域中一项长期存在且具有实际应用价值的技术。然而,实现人类水平的多视角理解和判断仍然是一个挑战。本文提出了Roundtable Essay Scoring (RES),这是一个多智能体评估框架,旨在零样本设置下执行精确且与人类对齐的评分。RES基于LLM构建评估智能体,每个智能体都针对特定的提示和主题背景进行定制。每个智能体独立生成基于特征的评分标准,并进行多视角评估。然后,通过模拟圆桌讨论,RES通过辩证推理过程整合个体评估,从而产生与人类评估更紧密对齐的最终整体分数。通过促进具有不同评估视角的智能体之间的协作和共识,RES优于先前的零样本AES方法。使用ChatGPT和Claude在ASAP数据集上的实验表明,RES在平均QWK方面比直接提示(Vanilla)方法提高了高达34.86%。

🔬 方法详解

问题定义:论文旨在解决自动作文评分(AES)中,现有方法难以达到人类水平的多视角理解和判断,导致评分结果与人类评估存在偏差的问题。现有方法通常依赖于单一模型或简单的提示工程,缺乏对作文多维度特征的综合考量。

核心思路:论文的核心思路是模拟人类专家进行作文评分的过程,即通过多个具有不同专业背景和视角的专家进行讨论和辩论,最终达成共识。RES框架通过构建多个LLM智能体,每个智能体代表一个专家,并赋予其不同的提示和主题背景,从而实现多视角评估。

技术框架:RES框架包含以下几个主要阶段:1) 智能体构建:基于LLM构建多个评估智能体,每个智能体针对特定的提示和主题背景进行定制。2) 评分标准生成:每个智能体独立生成基于特征的评分标准(rubric)。3) 多视角评估:每个智能体根据自身生成的评分标准,对作文进行独立评估。4) 辩证推理:通过模拟圆桌讨论,智能体之间进行辩论和协商,最终整合个体评估结果。5) 整体评分:根据辩证推理的结果,生成最终的整体分数。

关键创新:RES框架的关键创新在于引入了多智能体辩证推理机制,通过模拟人类专家讨论的过程,实现了对作文多维度特征的综合考量。与现有方法相比,RES框架能够更好地捕捉作文的细微差别,从而提高评分的准确性和可靠性。此外,RES框架采用零样本设置,无需大量的标注数据进行训练,降低了部署成本。

关键设计:RES框架的关键设计包括:1) 智能体提示工程:精心设计的提示可以引导智能体从不同的角度评估作文。2) 评分标准生成策略:智能体生成的评分标准直接影响评估结果,需要进行优化。3) 辩证推理算法:如何有效地模拟圆桌讨论,并整合个体评估结果,是RES框架的关键。论文中使用了基于LLM的对话模拟技术,并设计了相应的共识机制。

📊 实验亮点

实验结果表明,RES框架在ASAP数据集上取得了显著的性能提升。使用ChatGPT和Claude作为基础LLM,RES框架在平均QWK指标上比直接提示(Vanilla)方法提高了高达34.86%。这表明RES框架能够有效地利用LLM的强大能力,实现更准确、更可靠的自动作文评分。

🎯 应用场景

RES框架可应用于在线教育平台、作文批改系统、语言学习辅助工具等领域,能够提供更准确、更个性化的作文评分服务,减轻教师的批改负担,提高学生的写作水平。该研究的成果也有助于推动自然语言处理技术在教育领域的应用,促进教育智能化发展。

📄 摘要(原文)

The emergence of large language models (LLMs) has brought a new paradigm to automated essay scoring (AES), a long-standing and practical application of natural language processing in education. However, achieving human-level multi-perspective understanding and judgment remains a challenge. In this work, we propose Roundtable Essay Scoring (RES), a multi-agent evaluation framework designed to perform precise and human-aligned scoring under a zero-shot setting. RES constructs evaluator agents based on LLMs, each tailored to a specific prompt and topic context. Each agent independently generates a trait-based rubric and conducts a multi-perspective evaluation. Then, by simulating a roundtable-style discussion, RES consolidates individual evaluations through a dialectical reasoning process to produce a final holistic score that more closely aligns with human evaluation. By enabling collaboration and consensus among agents with diverse evaluation perspectives, RES outperforms prior zero-shot AES approaches. Experiments on the ASAP dataset using ChatGPT and Claude show that RES achieves up to a 34.86% improvement in average QWK over straightforward prompting (Vanilla) methods.