Towards Motion Turing Test: Evaluating Human-Likeness in Humanoid Robots
作者: Mingzhe Li, Mengyin Liu, Zekai Wu, Xincheng Lin, Junsheng Zhang, Ming Yan, Zengye Xie, Changwang Zhang, Chenglu Wen, Lan Xu, Siqi Shen, Cheng Wang
分类: cs.CV
发布日期: 2026-03-06
备注: 13 pages, 10 figures, conference
💡 一句话要点
提出运动图灵测试框架,评估人形机器人运动的类人程度,并构建HHMotion数据集。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱四:生成式动作 (Generative Motion) 支柱六:视频提取与匹配 (Video Extraction) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 人形机器人 运动评估 类人程度 图灵测试 HHMotion数据集
📋 核心要点
- 现有方法难以量化评估人形机器人运动的类人程度,缺乏统一的评估标准和数据集。
- 提出运动图灵测试框架,通过人类观察者区分机器人和人类运动的能力来评估类人程度。
- 构建HHMotion数据集,并设计基线模型,实验表明现有LLM在类人程度评估方面仍有不足。
📝 摘要(中文)
本文受到图灵测试的启发,提出了运动图灵测试框架,用于评估人类观察者仅通过运动学信息区分人形机器人和人类姿势的能力。为了支持该评估,作者构建了Human-Humanoid Motion (HHMotion)数据集,包含15个动作类别,由11个人形机器人模型和10个人类受试者执行的1000个运动序列。所有运动序列都被转换为SMPL-X表示,以消除视觉外观的影响。招募了30名注释者对每个姿势的类人程度进行0-5评分,总计超过500小时的注释。数据分析表明,人形机器人的运动仍然与人类运动存在明显的偏差,尤其是在跳跃、拳击和跑步等动态动作中。基于HHMotion,作者提出了一个类人程度评估任务,旨在从运动数据中自动预测类人程度得分。实验表明,即使是目前先进的多模态大型语言模型也无法充分评估运动的类人程度。为此,作者提出了一个简单的基线模型,并证明其性能优于几种基于LLM的最新方法。数据集、代码和基准将公开发布,以支持社区未来的研究。
🔬 方法详解
问题定义:论文旨在解决如何客观、量化地评估人形机器人运动的类人程度的问题。现有方法缺乏统一的评估标准,并且难以消除视觉外观等因素的干扰,使得评估结果不够准确。此外,缺乏大规模的、包含人类和机器人运动数据的对比数据集,限制了相关研究的进展。
核心思路:论文借鉴图灵测试的思想,认为如果人类观察者无法区分机器人和人类的运动,则可以认为机器人的运动具有较高的类人程度。因此,论文的核心思路是通过让人类观察者对机器人和人类的运动进行区分,并根据区分的准确率来评估机器人的类人程度。
技术框架:整体框架包含数据收集、数据处理、人类评估和模型评估四个主要阶段。首先,收集人类和人形机器人的运动数据,涵盖多种动作类别。然后,将所有运动数据转换为SMPL-X表示,以消除视觉外观的影响。接着,招募人类观察者对运动数据进行类人程度评分。最后,基于HHMotion数据集,训练和评估自动评估类人程度的模型。
关键创新:论文的关键创新在于提出了运动图灵测试框架,将主观的人类感知与客观的运动数据相结合,为类人程度评估提供了一种新的思路。此外,HHMotion数据集的构建也为相关研究提供了宝贵的数据资源。
关键设计:HHMotion数据集包含15个动作类别,涵盖了静态和动态动作。每个动作类别包含多个运动序列,由11个人形机器人模型和10个人类受试者执行。所有运动序列都被转换为SMPL-X表示,并由30名注释者进行0-5的类人程度评分。论文还提出了一个简单的基线模型,用于自动预测类人程度得分,该模型基于运动数据的统计特征进行训练。
🖼️ 关键图片
📊 实验亮点
实验结果表明,即使是先进的多模态大型语言模型在评估运动的类人程度方面仍然存在不足。作者提出的简单基线模型在HHMotion数据集上取得了优于LLM-based方法的结果,表明基于运动数据的统计特征进行类人程度评估是有效的。该数据集的发布将为未来的研究提供重要的基准。
🎯 应用场景
该研究成果可应用于人形机器人设计、运动控制算法优化、虚拟现实和游戏等领域。通过量化评估机器人运动的类人程度,可以指导机器人设计者开发更自然、更符合人类习惯的运动模式,提升人机交互的自然性和效率。此外,该数据集和评估方法也可用于评估虚拟角色的运动真实性,提升用户体验。
📄 摘要(原文)
Humanoid robots have achieved significant progress in motion generation and control, exhibiting movements that appear increasingly natural and human-like. Inspired by the Turing Test, we propose the Motion Turing Test, a framework that evaluates whether human observers can discriminate between humanoid robot and human poses using only kinematic information. To facilitate this evaluation, we present the Human-Humanoid Motion (HHMotion) dataset, which consists of 1,000 motion sequences spanning 15 action categories, performed by 11 humanoid models and 10 human subjects. All motion sequences are converted into SMPL-X representations to eliminate the influence of visual appearance. We recruited 30 annotators to rate the human-likeness of each pose on a 0-5 scale, resulting in over 500 hours of annotation. Analysis of the collected data reveals that humanoid motions still exhibit noticeable deviations from human movements, particularly in dynamic actions such as jumping, boxing, and running. Building on HHMotion, we formulate a human-likeness evaluation task that aims to automatically predict human-likeness scores from motion data. Despite recent progress in multimodal large language models, we find that they remain inadequate for assessing motion human-likeness. To address this, we propose a simple baseline model and demonstrate that it outperforms several contemporary LLM-based methods. The dataset, code, and benchmark will be publicly released to support future research in the community.