Development and Validation of Engagement and Rapport Scales for Evaluating User Experience in Multimodal Dialogue Systems
作者: Fuma Kurata, Mao Saeki, Masaki Eguchi, Shungo Suzuki, Hiroaki Takatsu, Yoichi Matsuyama
分类: cs.CL, cs.AI
发布日期: 2025-05-20
期刊: Proceedings of the 14th International Workshop on Spoken Dialogue Systems Technology, Hokkaido, Japan, 2024
💡 一句话要点
提出用户体验评估量表以优化多模态对话系统
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 用户体验 多模态对话 参与度量表 融洽度量表 教育心理学 对话系统评估
📋 核心要点
- 现有的对话系统评估方法缺乏有效的用户体验量化工具,尤其是在多模态环境下。
- 本研究提出了基于教育心理学和社会心理学理论的参与度和融洽度量表,以系统评估用户体验。
- 实验结果表明,量表能够有效区分人类导师与对话代理之间的对话体验质量差异。
📝 摘要(中文)
本研究旨在开发和验证两种用户参与度和融洽度量表,以评估多模态对话系统在外语学习中的用户体验质量。这些量表基于教育心理学、社会心理学和第二语言习得的参与理论设计。研究中,74名日本英语学习者与训练有素的人类导师和对话代理进行角色扮演和讨论任务,任务完成后填写参与度和融洽度量表。通过Cronbach's alpha系数分析和一系列确认性因子分析,验证了量表的结构有效性和设计项目的可靠性。结果显示,该量表成功捕捉了人类对话者与对话代理之间对话体验质量的差异。
🔬 方法详解
问题定义:本研究旨在解决多模态对话系统中缺乏有效用户体验评估工具的问题。现有方法未能充分量化用户在与人类导师和对话代理互动时的体验差异。
核心思路:研究通过开发参与度和融洽度量表,基于教育心理学和社会心理学的理论框架,设计出能够有效评估用户体验的工具。量表的设计旨在捕捉用户在对话过程中的情感和认知反应。
技术框架:研究采用了量表设计、数据收集和验证分析三个主要模块。首先设计量表,然后通过角色扮演和讨论任务收集数据,最后进行统计分析以验证量表的有效性和可靠性。
关键创新:本研究的主要创新在于提出了针对多模态对话系统的用户体验评估量表,填补了现有评估工具的空白,能够从多个维度捕捉用户体验的细微差别。
关键设计:量表的设计包括参与度和融洽度两个维度,使用Cronbach's alpha系数进行可靠性分析,并通过确认性因子分析验证结构有效性,确保量表的科学性和实用性。
📊 实验亮点
实验结果显示,参与度和融洽度量表能够有效区分人类导师与对话代理之间的对话体验质量,验证了量表的有效性。具体而言,参与度和融洽度在与人类导师的对话中显著高于与对话代理的对话,表明量表在评估用户体验方面的可靠性。
🎯 应用场景
该研究的量表可广泛应用于多模态对话系统的开发与评估,尤其是在教育、客服和人机交互等领域。通过量化用户体验,开发者可以更好地理解用户需求,优化系统设计,提高用户满意度和学习效果。
📄 摘要(原文)
This study aimed to develop and validate two scales of engagement and rapport to evaluate the user experience quality with multimodal dialogue systems in the context of foreign language learning. The scales were designed based on theories of engagement in educational psychology, social psychology, and second language acquisition.Seventy-four Japanese learners of English completed roleplay and discussion tasks with trained human tutors and a dialog agent. After each dialogic task was completed, they responded to the scales of engagement and rapport. The validity and reliability of the scales were investigated through two analyses. We first conducted analysis of Cronbach's alpha coefficient and a series of confirmatory factor analyses to test the structural validity of the scales and the reliability of our designed items. We then compared the scores of engagement and rapport between the dialogue with human tutors and the one with a dialogue agent. The results revealed that our scales succeeded in capturing the difference in the dialogue experience quality between the human interlocutors and the dialogue agent from multiple perspectives.