MIBURI: Towards Expressive Interactive Gesture Synthesis
作者: M. Hamza Mughal, Rishabh Dabral, Vera Demberg, Christian Theobalt
分类: cs.CV, cs.GR, cs.HC
发布日期: 2026-03-03
备注: CVPR 2026. Project page: https://vcai.mpi-inf.mpg.de/projects/MIBURI/
💡 一句话要点
MIBURI:提出一种用于生成富有表现力的交互式手势的在线因果框架。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 具身对话代理 手势合成 实时生成 因果模型 多模态交互
📋 核心要点
- 现有具身对话代理手势僵硬、缺乏多样性,而生成式方法依赖未来信息,难以实时交互。
- MIBURI提出一种在线因果框架,利用分层token和二维因果模型,实时生成自然手势和面部表情。
- 实验表明,MIBURI生成的手势自然且与上下文对齐,优于现有基线方法,提升了交互体验。
📝 摘要(中文)
具身对话代理(ECAs)旨在通过语音、手势和面部表情来模拟人与人之间的面对面互动。目前基于大型语言模型(LLM)的对话代理缺乏具身性和自然互动所需富有表现力的手势。现有的ECA解决方案通常产生僵硬、低多样性的运动,不适合类人互动。而用于协同语音手势合成的生成方法虽然能产生自然的身体手势,但依赖于未来的语音上下文,且运行时间较长。为了弥合这一差距,我们提出了MIBURI,这是第一个在线、因果框架,用于生成与实时口语对话同步的富有表现力的全身手势和面部表情。我们采用身体部位感知的姿态编解码器,将分层运动细节编码为多级离散token。然后,这些token由基于LLM的语音-文本嵌入调节的二维因果框架自回归生成,从而实时地对时间动态和部分级别的运动层次结构进行建模。此外,我们引入了辅助目标,以鼓励富有表现力和多样化的手势,同时防止收敛到静态姿势。对比评估表明,与最新的基线相比,我们的因果和实时方法能够产生自然且上下文对齐的手势。
🔬 方法详解
问题定义:现有方法生成的具身对话代理手势存在自然度不足、多样性低的问题,难以实现流畅自然的实时人机交互。生成式方法虽然可以生成自然的手势,但通常需要依赖未来的语音信息,导致无法在线实时生成手势。因此,需要一种能够实时生成自然、富有表现力且与语音同步的手势的方法。
核心思路:MIBURI的核心思路是利用身体部位感知的姿态编解码器将手势分解为多层次的离散token,然后使用二维因果框架自回归地生成这些token。通过这种方式,模型可以同时考虑时间动态和身体部位之间的层次关系,从而生成更自然、更富有表现力的手势。此外,模型还引入了辅助目标,以鼓励生成多样化的手势,并避免模型陷入静态姿势。
技术框架:MIBURI的整体框架包括以下几个主要模块:1) 语音-文本嵌入模块:使用LLM将语音转换为文本嵌入。2) 姿态编解码器:将人体姿态编码为多层次的离散token。3) 二维因果生成器:基于语音-文本嵌入,自回归地生成姿态token。4) 辅助目标:用于鼓励手势的多样性和避免静态姿势。整个流程是因果的,即只依赖于过去的信息,从而保证了实时性。
关键创新:MIBURI的关键创新在于以下几个方面:1) 提出了身体部位感知的姿态编解码器,能够将手势分解为多层次的离散token,从而更好地捕捉手势的细节和层次关系。2) 提出了二维因果生成器,能够同时考虑时间动态和身体部位之间的层次关系,从而生成更自然、更富有表现力的手势。3) 引入了辅助目标,以鼓励手势的多样性和避免静态姿势。与现有方法相比,MIBURI能够实时生成更自然、更富有表现力且与语音同步的手势。
关键设计:姿态编解码器使用分层量化变分自编码器(VQ-VAE)进行训练,将人体姿态编码为多层离散token。二维因果生成器使用Transformer架构,并采用因果注意力机制,以保证只依赖于过去的信息。辅助目标包括一个多样性损失和一个运动损失,用于鼓励生成多样化的手势和避免静态姿势。具体的损失函数权重和网络结构参数未知。
🖼️ 关键图片
📊 实验亮点
实验结果表明,MIBURI能够生成自然且与上下文对齐的手势,优于现有的基线方法。具体的性能数据未知,但通过对比评估,MIBURI在手势的自然度、多样性和与语音的同步性方面均取得了显著提升。用户研究也表明,用户更喜欢MIBURI生成的手势,认为其更自然、更富有表现力。
🎯 应用场景
MIBURI可应用于各种人机交互场景,例如虚拟助手、在线教育、游戏和娱乐等。通过生成自然、富有表现力的手势,MIBURI可以显著提升用户与虚拟角色的交互体验,使其更加自然和沉浸。未来,MIBURI可以进一步扩展到其他模态,例如面部表情和眼神,从而实现更全面的具身对话代理。
📄 摘要(原文)
Embodied Conversational Agents (ECAs) aim to emulate human face-to-face interaction through speech, gestures, and facial expressions. Current large language model (LLM)-based conversational agents lack embodiment and the expressive gestures essential for natural interaction. Existing solutions for ECAs often produce rigid, low-diversity motions, that are unsuitable for human-like interaction. Alternatively, generative methods for co-speech gesture synthesis yield natural body gestures but depend on future speech context and require long run-times. To bridge this gap, we present MIBURI, the first online, causal framework for generating expressive full-body gestures and facial expressions synchronized with real-time spoken dialogue. We employ body-part aware gesture codecs that encode hierarchical motion details into multi-level discrete tokens. These tokens are then autoregressively generated by a two-dimensional causal framework conditioned on LLM-based speech-text embeddings, modeling both temporal dynamics and part-level motion hierarchy in real time. Further, we introduce auxiliary objectives to encourage expressive and diverse gestures while preventing convergence to static poses. Comparative evaluations demonstrate that our causal and real-time approach produces natural and contextually aligned gestures against recent baselines. We urge the reader to explore demo videos on https://vcai.mpi-inf.mpg.de/projects/MIBURI/.