GenAI Voice Mode in Programming Education

📄 arXiv: 2509.10596v1 📥 PDF

作者: Sven Jacobs, Natalie Kiesler

分类: cs.CY, cs.AI, cs.HC

发布日期: 2025-09-12

备注: Accepted for the 25th International Conference on Computing Education Research (Koli Calling '25)

DOI: 10.1145/3769994.3770001


💡 一句话要点

探索GenAI语音模式在编程教育中的应用,解决新手程序员可访问性问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: GenAI 语音交互 编程教育 可访问性 实时反馈

📋 核心要点

  1. 现有编程教育工具对有视觉障碍等残疾的新手程序员的可访问性不足,限制了他们的学习体验。
  2. 利用多模态生成式AI(GenAI)的实时语音接口,为新手程序员提供即时反馈和指导,辅助学习。
  3. 通过分析真实课堂环境中学生与GenAI语音导师的互动,评估其有效性,并为未来工具设计提供依据。

📝 摘要(中文)

本研究分析了九名九年级学生在真实课堂环境中使用语音辅助导师(由OpenAI的Realtime API驱动)学习Python时的音频对话。通过定性编码分析了学生的语音提示和AI的响应(共1210条消息)。同时,通过伙伴建模问卷收集了学生们的看法。GenAI语音导师主要提供关于错误和下一步的反馈,但其正确性有限(在416次反馈输出中,正确率为71.4%)。观察到质量问题,尤其是在AI试图说出编程代码元素时。学生主要使用GenAI语音导师进行调试。他们认为它有能力,但人情味有限,并且具有一定的灵活性。本研究首次探索了实时语音GenAI导师与新手程序员的互动动态,为未来的教育工具设计提供信息,并可能解决不同学习者的可访问性需求。

🔬 方法详解

问题定义:本研究旨在解决新手程序员,特别是那些有视觉障碍等残疾的学生,在学习编程时面临的可访问性问题。现有的编程教育工具通常依赖于视觉界面,这对于有视觉障碍的学生来说是一个巨大的挑战。此外,即使对于没有视觉障碍的学生,传统的编程学习方式也可能缺乏个性化和及时的反馈,导致学习效率低下。

核心思路:本研究的核心思路是利用多模态生成式AI(GenAI)的实时语音接口,创建一个语音辅助编程导师。通过语音交互,学生可以向AI导师提问、寻求帮助,并获得即时反馈。这种方式旨在提供更加个性化、可访问性更强的编程学习体验。

技术框架:该研究使用OpenAI的Realtime API构建了一个语音辅助编程导师。学生通过语音与AI导师进行交互,AI导师分析学生的语音提示,并生成相应的语音反馈。研究人员收集并分析了学生和AI导师之间的音频对话数据,以及学生对AI导师的感知数据。整个流程包括:学生语音输入 -> OpenAI Realtime API处理 -> AI生成语音反馈 -> 学生接收反馈并继续编程。

关键创新:本研究的关键创新在于探索了实时语音GenAI导师在编程教育中的应用。以往的研究主要集中在文本或图形界面的AI辅助编程工具,而本研究首次关注了语音交互方式。此外,该研究还深入分析了学生与AI导师的互动动态,揭示了语音辅助编程的优势和挑战。

关键设计:研究中使用了OpenAI的Realtime API来实现实时的语音交互。研究人员对收集到的音频对话数据进行了定性编码分析,以识别学生和AI导师之间的互动模式。此外,研究人员还使用了伙伴建模问卷来评估学生对AI导师的感知。具体的参数设置和网络结构等技术细节未在论文中详细描述,可能使用了OpenAI API的默认配置。

📊 实验亮点

研究发现,GenAI语音导师主要提供关于错误和下一步的反馈,但在416次反馈输出中,正确率仅为71.4%。学生主要使用该导师进行调试,并认为它有能力,但人情味有限,且具有一定的灵活性。这些结果揭示了当前GenAI语音导师在编程教育中的局限性,为未来的改进方向提供了重要参考。

🎯 应用场景

该研究成果可应用于开发更具可访问性和个性化的编程教育工具,特别是针对有视觉障碍或其他残疾的学生。通过语音交互,可以降低编程学习的门槛,提高学习效率。此外,该技术还可以应用于其他领域的教育,例如语言学习、数学辅导等,为不同学习者提供更加个性化的学习体验。

📄 摘要(原文)

Real-time voice interfaces using multimodal Generative AI (GenAI) can potentially address the accessibility needs of novice programmers with disabilities (e.g., related to vision). Yet, little is known about how novices interact with GenAI tools and their feedback quality in the form of audio output. This paper analyzes audio dialogues from nine 9th-grade students using a voice-enabled tutor (powered by OpenAI's Realtime API) in an authentic classroom setting while learning Python. We examined the students' voice prompts and AI's responses (1210 messages) by using qualitative coding. We also gathered students' perceptions via the Partner Modeling Questionnaire. The GenAI Voice Tutor primarily offered feedback on mistakes and next steps, but its correctness was limited (71.4% correct out of 416 feedback outputs). Quality issues were observed, particularly when the AI attempted to utter programming code elements. Students used the GenAI voice tutor primarily for debugging. They perceived it as competent, only somewhat human-like, and flexible. The present study is the first to explore the interaction dynamics of real-time voice GenAI tutors and novice programmers, informing future educational tool design and potentially addressing accessibility needs of diverse learners.