LLM-Generated Feedback Supports Learning If Learners Choose to Use It

作者: Danielle R. Thomas, Conrad Borchers, Shambhavi Bhushan, Erin Gatz, Shivang Gupta, Kenneth R. Koedinger

分类: cs.CL, cs.CY

发布日期: 2025-06-20

备注: Full research paper accepted at EC-TEL '25

💡 一句话要点

研究LLM生成反馈对学习的影响及其应用潜力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 学习反馈 教育技术 个性化学习 倾向评分法 学习效果评估

📋 核心要点

现有反馈方法对学习的影响尚未得到充分研究，尤其是在使用LLM生成反馈的情况下。
本研究通过分析学习者对LLM生成反馈的使用情况，探讨其对学习效果的影响，采用倾向评分法来解决选择偏差问题。
实验结果表明，倾向于使用LLM反馈的学习者在后测中表现更好，且LLM反馈未显著增加完成时间，学习者普遍认为其有帮助。

📝 摘要（中文）

大型语言模型（LLMs）在生成反馈方面的应用日益增多，但其对学习的影响仍未得到充分探讨。本研究考察了按需生成的LLM解释性反馈如何影响七个基于情境的辅导培训课程的学习。通过分析885名辅导学习者的2600多个课程完成情况，我们比较了三组学习者的后测表现：接受gpt-3.5-turbo生成反馈的学习者、拒绝反馈的学习者以及没有访问权限的学习者。结果显示，倾向于使用LLM反馈的学习者在后测中得分显著高于不倾向的学习者。经过调整后，七个课程中有两个显示出LLM反馈的统计学显著学习效益，标准化效应值为0.28和0.33。这些结果表明，LLM反馈的有效性依赖于学习者寻求支持的倾向。

🔬 方法详解

问题定义：本研究旨在解决LLM生成反馈对学习效果的影响尚不明确的问题，现有方法在反馈生成的有效性和学习者使用意愿上存在不足。

核心思路：通过对学习者在使用LLM生成反馈的倾向进行分析，探讨其对学习效果的影响，采用倾向评分法来控制选择偏差。

技术框架：研究设计包括三个主要阶段：数据收集（分析学习者的课程完成情况）、反馈生成（使用gpt-3.5-turbo生成反馈）和效果评估（比较不同组学习者的后测表现）。

关键创新：本研究的创新点在于首次系统性地评估LLM生成反馈对学习效果的影响，并通过倾向评分法控制选择偏差，提供了更为准确的结果。

关键设计：研究中使用了标准化效应值来量化学习效果，设置了不同的反馈组，并确保所有组均接受非LLM的纠正反馈，以便进行公平比较。

📊 实验亮点

实验结果显示，倾向于使用LLM反馈的学习者在后测中得分显著高于不倾向的学习者。经过调整后，七个课程中有两个课程的学习效益显著，标准化效应值分别为0.28和0.33，表明LLM反馈在特定情境下具有实质性的学习提升效果。

🎯 应用场景

该研究的潜在应用领域包括教育技术、在线学习平台和个性化学习系统。LLM生成的反馈可以作为一种低成本、可扩展的方式，帮助学习者在开放性任务中获得更好的学习效果，尤其是在已有反馈机制的系统中。未来，随着LLM技术的进步，其在教育领域的应用前景将更加广阔。

📄 摘要（原文）

Large language models (LLMs) are increasingly used to generate feedback, yet their impact on learning remains underexplored, especially compared to existing feedback methods. This study investigates how on-demand LLM-generated explanatory feedback influences learning in seven scenario-based tutor training lessons. Analyzing over 2,600 lesson completions from 885 tutor learners, we compare posttest performance among learners across three groups: learners who received feedback generated by gpt-3.5-turbo, those who declined it, and those without access. All groups received non-LLM corrective feedback. To address potential selection bias-where higher-performing learners may be more inclined to use LLM feedback-we applied propensity scoring. Learners with a higher predicted likelihood of engaging with LLM feedback scored significantly higher at posttest than those with lower propensity. After adjusting for this effect, two out of seven lessons showed statistically significant learning benefits from LLM feedback with standardized effect sizes of 0.28 and 0.33. These moderate effects suggest that the effectiveness of LLM feedback depends on the learners' tendency to seek support. Importantly, LLM feedback did not significantly increase completion time, and learners overwhelmingly rated it as helpful. These findings highlight LLM feedback's potential as a low-cost and scalable way to improve learning on open-ended tasks, particularly in existing systems already providing feedback without LLMs. This work contributes open datasets, LLM prompts, and rubrics to support reproducibility.

LLM-Generated Feedback Supports Learning If Learners Choose to Use It

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册