Leadership Assessment in Pediatric Intensive Care Unit Team Training

📄 arXiv: 2505.24389v2 📥 PDF

作者: Liangyang Ouyang, Yuki Sakai, Ryosuke Furuta, Hisataka Nozawa, Hikoro Matsui, Yoichi Sato

分类: cs.CV

发布日期: 2025-05-30 (更新: 2025-08-28)

备注: This paper is accepted by EgoVis Workshop at CVPR 2025


💡 一句话要点

提出自动化分析框架以评估PICU团队的领导能力

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自我中心视觉 领导能力评估 多模态信号 自动化分析 医疗培训

📋 核心要点

  1. 核心问题:现有的PICU团队领导能力评估方法缺乏自动化和系统性,难以准确捕捉和分析团队成员的行为表现。
  2. 方法要点:论文提出了一种基于自我中心视觉的自动化分析框架,通过多模态数据捕捉和分析关键行为线索来评估领导能力。
  3. 实验或效果:实验结果表明,领导能力与行为指标之间存在显著相关性,验证了所提框架的有效性。

📝 摘要(中文)

本文针对儿科重症监护病房(PICU)团队的领导能力评估问题,开发了一种基于自我中心视觉的自动化分析框架。我们识别了关键行为线索,包括注视对象、眼神接触和对话模式,作为领导能力评估的重要指标。为捕捉这些多模态信号,我们使用Aria眼镜记录视频、音频、注视和头部运动数据。通过对四个模拟会话的记录,提出了一种利用REMoDNaV、SAM、YOLO和ChatGPT的方法,实现注视对象检测、眼神接触检测和对话分类。实验结果显示,领导能力与行为指标之间存在显著相关性,表明该框架能够有效解决PICU团队的技能评估问题。

🔬 方法详解

问题定义:本文旨在解决PICU团队领导能力评估的自动化问题。现有方法往往依赖人工观察,效率低且主观性强,难以全面捕捉团队成员的行为表现。

核心思路:本研究的核心思路是利用自我中心视觉技术,通过多模态信号(视频、音频、注视和头部运动)来自动化评估领导能力。这样的设计可以更客观、全面地分析团队互动。

技术框架:整体架构包括数据采集、行为特征提取和分析三个主要模块。首先,使用Aria眼镜进行数据采集;其次,应用REMoDNaV、SAM和YOLO进行行为特征提取;最后,利用ChatGPT进行对话分类和分析。

关键创新:本研究的创新点在于结合多种先进技术(如YOLO和ChatGPT)进行行为分析,突破了传统评估方法的局限,实现了自动化和高效的领导能力评估。

关键设计:在技术细节上,注视对象检测和眼神接触检测采用了YOLO模型,确保高精度的实时分析;对话分类则通过ChatGPT进行语义理解,提升了分类的准确性。

📊 实验亮点

实验结果显示,所提方法在领导能力评估中与传统方法相比,行为指标(如注视时间、转移模式和直接指令)与领导能力之间的相关性显著提高,验证了框架的有效性和实用性。

🎯 应用场景

该研究的潜在应用领域包括医疗培训、团队建设和领导力发展等。通过自动化评估,医疗机构可以更有效地识别和培养团队中的领导人才,提升整体医疗服务质量。未来,该框架还可扩展到其他领域的团队表现评估。

📄 摘要(原文)

This paper addresses the task of assessing PICU team's leadership skills by developing an automated analysis framework based on egocentric vision. We identify key behavioral cues, including fixation object, eye contact, and conversation patterns, as essential indicators of leadership assessment. In order to capture these multimodal signals, we employ Aria Glasses to record egocentric video, audio, gaze, and head movement data. We collect one-hour videos of four simulated sessions involving doctors with different roles and levels. To automate data processing, we propose a method leveraging REMoDNaV, SAM, YOLO, and ChatGPT for fixation object detection, eye contact detection, and conversation classification. In the experiments, significant correlations are observed between leadership skills and behavioral metrics, i.e., the output of our proposed methods, such as fixation time, transition patterns, and direct orders in speech. These results indicate that our proposed data collection and analysis framework can effectively solve skill assessment for training PICU teams.