SRWToolkit: An Open Source Wizard of Oz Toolkit to Create Social Robotic Avatars
作者: Atikkhan Faridkhan Nilgar, Kristof Van Laerhoven, Ayub Kinoti
分类: cs.HC, cs.RO
发布日期: 2025-09-04
期刊: 2025 International Conference on Social Robotics (ICSR)
💡 一句话要点
SRWToolkit:一个开源的社会机器人化身快速原型设计工具
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 人机交互 社会机器人 大型语言模型 开源工具包 快速原型设计
📋 核心要点
- 现有社会机器人原型设计依赖云端LLM,存在延迟和数据隐私问题,限制了快速迭代和定制化。
- SRWToolkit采用本地LLM推理,提供模块化设计,支持快速配置机器人化身的外观、行为和交互方式。
- 用户研究表明,该工具包在可用性、信任度和用户体验方面表现良好,加速了人机交互研究的进程。
📝 摘要(中文)
本文介绍SRWToolkit,一个开源的Wizard of Oz工具包,旨在促进由本地大型语言模型(LLM)驱动的社会机器人化身的快速原型设计。我们的基于Web的工具包通过文本输入、按钮激活的语音和唤醒词命令实现多模态交互。该工具包通过直观的控制面板提供化身外观、行为、语言和声音的实时配置。与依赖于基于云的LLM服务的先前工作相比,SRWToolkit强调模块化,并通过本地LLM推理确保设备上的功能。在我们的一个小规模用户研究(n=11)中,参与者创建了各种机器人角色(医院接待员、数学老师和驾驶助手)并与之互动,这证明了该工具包在可用性、信任和用户体验方面的积极成果。该工具包能够快速有效地开发针对研究人员需求定制的机器人角色,从而支持人机交互中的可扩展研究。
🔬 方法详解
问题定义:现有社会机器人原型设计工具通常依赖于云端的大型语言模型(LLM),这带来了几个问题。首先,网络延迟会影响交互的实时性,降低用户体验。其次,将用户数据发送到云端存在隐私泄露的风险。此外,云端服务通常需要付费,增加了研究成本,并且定制化程度受限。因此,需要一种能够在本地运行、快速配置且易于使用的社会机器人原型设计工具。
核心思路:SRWToolkit的核心思路是提供一个基于Web的、开源的Wizard of Oz工具包,该工具包允许研究人员快速创建和定制社会机器人化身,而无需编写大量的代码。通过本地LLM推理,避免了网络延迟和数据隐私问题。模块化的设计使得研究人员可以灵活地配置化身的外观、行为、语言和声音。
技术框架:SRWToolkit的技术框架主要包括三个部分:Web控制面板、本地LLM推理引擎和机器人化身接口。Web控制面板允许研究人员通过图形界面配置化身的外观、行为、语言和声音。本地LLM推理引擎负责处理用户的输入并生成机器人的响应。机器人化身接口负责将机器人的响应转化为语音、动画或其他形式的输出。
关键创新:SRWToolkit最重要的技术创新点在于其本地LLM推理和模块化设计。与依赖云端LLM的传统方法相比,本地LLM推理避免了网络延迟和数据隐私问题,提高了交互的实时性和安全性。模块化设计使得研究人员可以灵活地配置化身,快速迭代原型。
关键设计:SRWToolkit的关键设计包括:1) 基于Web的控制面板,提供直观的用户界面;2) 支持多种本地LLM推理引擎,例如GPT-2、GPT-3等;3) 提供丰富的化身配置选项,包括外观、行为、语言和声音;4) 支持多种交互方式,包括文本输入、按钮激活的语音和唤醒词命令。
📊 实验亮点
用户研究表明,使用SRWToolkit创建的机器人角色在可用性、信任度和用户体验方面表现良好。参与者能够快速创建各种机器人角色,例如医院接待员、数学老师和驾驶助手。研究结果表明,SRWToolkit能够显著提高人机交互研究的效率和质量。
🎯 应用场景
SRWToolkit可应用于各种人机交互研究领域,例如教育、医疗保健和娱乐。它可以用于创建虚拟助手、社交机器人和游戏角色。该工具包的开源特性使得研究人员可以自由地修改和扩展其功能,以满足特定的研究需求。未来,SRWToolkit可以与更多的机器人平台集成,支持更复杂的交互场景。
📄 摘要(原文)
We present SRWToolkit, an open-source Wizard of Oz toolkit designed to facilitate the rapid prototyping of social robotic avatars powered by local large language models (LLMs). Our web-based toolkit enables multimodal interaction through text input, button-activated speech, and wake-word command. The toolkit offers real-time configuration of avatar appearance, behavior, language, and voice via an intuitive control panel. In contrast to prior works that rely on cloud-based LLM services, SRWToolkit emphasizes modularity and ensures on-device functionality through local LLM inference. In our small-scale user study ($n=11$), participants created and interacted with diverse robotic roles (hospital receptionist, mathematics teacher, and driving assistant), which demonstrated positive outcomes in the toolkit's usability, trust, and user experience. The toolkit enables rapid and efficient development of robot characters customized to researchers' needs, supporting scalable research in human-robot interaction.