Assessing LLM Text Detection in Educational Contexts: Does Human Contribution Affect Detection?

📄 arXiv: 2508.08096v1 📥 PDF

作者: Lukas Gehring, Benjamin Paaßen

分类: cs.CL, cs.LG

发布日期: 2025-08-11

备注: Preprint as provided by the authors (19 pages, 12 figures, 9 tables)

🔗 代码/项目: GITHUB


💡 一句话要点

提出GEDE数据集以解决教育环境中的LLM文本检测问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 文本检测 教育技术 学术诚信 数据集构建 学习分析 误报率

📋 核心要点

  1. 现有的LLM文本检测方法在处理学生贡献水平中间的文本时表现不佳,容易产生误报。
  2. 本文提出了一个新的数据集GEDE,并引入贡献水平的概念,以更好地捕捉学生在作业中的贡献。
  3. 实验结果表明,检测器在分类LLM改进的学生文本时准确率较低,尤其在教育环境中影响显著。

📝 摘要(中文)

随着大型语言模型(LLMs)的进步和可及性提高,学生自动生成文本的现象日益普遍,这给教育机构带来了新的挑战。为维护学术诚信并确保学生学习,自动检测LLM生成文本的学习分析方法变得愈发重要。本文基准测试了不同最先进检测器在教育环境中的表现,提出了一个新的数据集——教育中的生成性论文检测(GEDE),该数据集包含900多篇学生撰写的论文和超过12,500篇来自不同领域的LLM生成论文。我们引入了贡献水平的概念,表示学生在作业中的贡献程度,发现大多数检测器在准确分类中间贡献水平的文本时存在困难,尤其容易产生误报,这在教育环境中可能对学生造成严重影响。

🔬 方法详解

问题定义:本文旨在解决教育环境中LLM生成文本的检测问题,现有方法在处理学生贡献水平中间的文本时存在误报率高的问题。

核心思路:通过引入贡献水平的概念,论文能够更细致地分析学生在作业中的贡献,从而提高检测的准确性。

技术框架:整体架构包括数据集构建、贡献水平定义、检测器基准测试等主要模块,旨在全面评估不同检测器的性能。

关键创新:最重要的创新点在于提出了GEDE数据集和贡献水平的概念,这与现有方法的分类方式有本质区别,能够更好地反映学生的实际贡献。

关键设计:在数据集构建中,设置了多种贡献水平的文本样本,并使用了多种检测器进行基准测试,确保了实验的全面性和可靠性。

📊 实验亮点

实验结果显示,大多数检测器在处理LLM改进的学生文本时准确率低于50%,尤其在中间贡献水平的文本上,误报率显著高于预期。这一发现强调了在教育环境中使用这些检测器的潜在风险。

🎯 应用场景

该研究的潜在应用领域包括教育机构的学术诚信维护、在线学习平台的内容审核以及文本生成工具的使用规范。通过提高LLM文本检测的准确性,能够有效减少误报,保护学生的学习权益,促进教育公平。未来,该研究可能推动更多针对LLM生成文本的检测技术的发展。

📄 摘要(原文)

Recent advancements in Large Language Models (LLMs) and their increased accessibility have made it easier than ever for students to automatically generate texts, posing new challenges for educational institutions. To enforce norms of academic integrity and ensure students' learning, learning analytics methods to automatically detect LLM-generated text appear increasingly appealing. This paper benchmarks the performance of different state-of-the-art detectors in educational contexts, introducing a novel dataset, called Generative Essay Detection in Education (GEDE), containing over 900 student-written essays and over 12,500 LLM-generated essays from various domains. To capture the diversity of LLM usage practices in generating text, we propose the concept of contribution levels, representing students' contribution to a given assignment. These levels range from purely human-written texts, to slightly LLM-improved versions, to fully LLM-generated texts, and finally to active attacks on the detector by "humanizing" generated texts. We show that most detectors struggle to accurately classify texts of intermediate student contribution levels, like LLM-improved human-written texts. Detectors are particularly likely to produce false positives, which is problematic in educational settings where false suspicions can severely impact students' lives. Our dataset, code, and additional supplementary materials are publicly available at https://github.com/lukasgehring/Assessing-LLM-Text-Detection-in-Educational-Contexts.