Learning When to Ask: Simulation-Trained Humanoids for Mental-Health Diagnosis
作者: Filippo Cenacchi, Deborah Richards, Longbing Cao
分类: cs.LG, cs.AI, cs.HC, cs.RO
发布日期: 2025-11-28
💡 一句话要点
提出基于模拟训练的人形机器人心理健康诊断方法,提升对话效率与诊断准确性。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 人形机器人 心理健康诊断 对话系统 强化学习 虚拟仿真
📋 核心要点
- 现有方法在人形机器人心理健康诊断中,存在测试成本高、迭代慢、难以泛化等问题。
- 论文提出一种基于模拟的训练框架,将访谈数据转化为虚拟患者,并使用强化学习优化对话策略。
- 实验表明,定制的TD3控制器在对话完整性、社交时机等方面优于PPO和CEM,并具有良好的鲁棒性。
📝 摘要(中文)
与用户进行人形机器人测试速度慢、损耗大,且迭代和多样性受限。然而,筛查代理必须掌握对话时机、韵律、反馈以及面部和语音的关注点,以诊断抑郁症和创伤后应激障碍。大多数模拟器忽略了非语言动态的策略学习;许多控制器追求任务准确性,而低估了信任、节奏和融洽关系。我们虚拟化人形机器人作为对话代理,以避免硬件负担地进行训练。我们以代理为中心的模拟优先流程将访谈数据转换为276个Unreal Engine MetaHuman患者,具有同步的语音、注视/面部和头部-躯干姿势,以及PHQ-8和PCL-C流程。一个感知-融合-策略循环决定了说什么和何时说,何时反馈,以及如何避免中断,并受到安全屏蔽的保护。训练使用反事实重放(有界的非语言扰动)和一个不确定性感知的轮次管理器,该管理器进行探测以减少诊断歧义。结果仅为模拟结果;人形机器人是转移目标。在比较三个控制器时,定制的TD3(Twin Delayed DDPG)优于PPO和CEM,在可比奖励下实现了接近上限的覆盖率和更稳定的节奏。决策质量分析表明,轮次重叠可忽略不计,切割时序对齐,澄清提示更少,等待时间更短。性能在模态dropout和渲染器交换下保持稳定,并且排名在保留的患者分割上保持不变。贡献:(1)一个以代理为中心的模拟器,将访谈转换为276个具有有界非语言反事实的交互式患者;(2)一个安全的学习循环,将时机和融洽关系视为一流的控制变量;(3)一项比较研究(TD3 vs PPO/CEM),在完整性和社交时机方面有明显的优势;(4)消融和鲁棒性分析,解释了这些优势并支持临床医生监督的人形机器人试点。
🔬 方法详解
问题定义:论文旨在解决人形机器人在心理健康诊断应用中,与用户进行有效对话的难题。现有方法依赖于真实世界的人机交互测试,成本高昂、耗时,且难以覆盖各种患者情况。此外,现有控制器往往侧重于任务准确性,忽略了对话中的信任、节奏和融洽关系等重要因素。
核心思路:论文的核心思路是利用虚拟仿真环境,将真实访谈数据转化为大量虚拟患者,从而在低成本、高效率的环境中训练人形机器人的对话策略。通过强化学习,使机器人能够学习何时提问、如何反馈,以及如何避免中断,从而提升对话质量和诊断准确性。
技术框架:整体框架包含以下几个主要模块:1) 患者模拟器:将访谈数据转化为Unreal Engine MetaHuman患者,包含同步的语音、面部表情和姿势等信息。2) 感知-融合-策略循环:机器人通过感知患者的语音和面部信息,融合多模态数据,并根据策略决定下一步的行动,例如提问、反馈等。3) 安全屏蔽:用于防止机器人做出不适当的言语或行为。4) 训练模块:使用反事实重放和不确定性感知的轮次管理器,训练机器人的对话策略。
关键创新:论文的关键创新在于:1) 以代理为中心的模拟器:能够将真实访谈数据转化为大量交互式虚拟患者,并支持非语言反事实扰动。2) 将时机和融洽关系作为一流控制变量的强化学习框架:传统的强化学习往往只关注任务准确性,而忽略了对话中的社交因素。论文将时机和融洽关系纳入奖励函数,从而使机器人能够学习更自然的对话策略。3) 不确定性感知的轮次管理器:通过探测来减少诊断歧义,提升诊断准确性。
关键设计:论文使用TD3(Twin Delayed DDPG)作为主要的强化学习算法,并针对对话场景进行了定制。奖励函数的设计考虑了对话的完整性、社交时机和诊断准确性等因素。反事实重放通过对非语言行为进行有界扰动,增加了训练数据的多样性。不确定性感知的轮次管理器通过计算诊断结果的不确定性,决定是否需要进行额外的提问。
📊 实验亮点
实验结果表明,定制的TD3控制器在模拟环境中取得了显著的性能提升,在对话完整性、社交时机等方面优于PPO和CEM。决策质量分析显示,TD3控制器能够减少轮次重叠、对齐切割时序、减少澄清提示和缩短等待时间。此外,该方法在模态dropout和渲染器交换下表现出良好的鲁棒性,并且在保留的患者分割上保持了排名。
🎯 应用场景
该研究成果可应用于心理健康咨询、患者筛查、康复训练等领域。通过虚拟化患者和训练对话机器人,可以降低心理健康服务的成本,提高服务效率,并为患者提供个性化的支持。未来,该技术有望扩展到其他医疗领域,例如老年护理、残疾人辅助等。
📄 摘要(原文)
Testing humanoid robots with users is slow, causes wear, and limits iteration and diversity. Yet screening agents must master conversational timing, prosody, backchannels, and what to attend to in faces and speech for Depression and PTSD. Most simulators omit policy learning with nonverbal dynamics; many controllers chase task accuracy while underweighting trust, pacing, and rapport. We virtualise the humanoid as a conversational agent to train without hardware burden. Our agent-centred, simulation-first pipeline turns interview data into 276 Unreal Engine MetaHuman patients with synchronised speech, gaze/face, and head-torso poses, plus PHQ-8 and PCL-C flows. A perception-fusion-policy loop decides what and when to speak, when to backchannel, and how to avoid interruptions, under a safety shield. Training uses counterfactual replay (bounded nonverbal perturbations) and an uncertainty-aware turn manager that probes to reduce diagnostic ambiguity. Results are simulation-only; the humanoid is the transfer target. In comparing three controllers, a custom TD3 (Twin Delayed DDPG) outperformed PPO and CEM, achieving near-ceiling coverage with steadier pace at comparable rewards. Decision-quality analyses show negligible turn overlap, aligned cut timing, fewer clarification prompts, and shorter waits. Performance stays stable under modality dropout and a renderer swap, and rankings hold on a held-out patient split. Contributions: (1) an agent-centred simulator that turns interviews into 276 interactive patients with bounded nonverbal counterfactuals; (2) a safe learning loop that treats timing and rapport as first-class control variables; (3) a comparative study (TD3 vs PPO/CEM) with clear gains in completeness and social timing; and (4) ablations and robustness analyses explaining the gains and enabling clinician-supervised humanoid pilots.