Controllable Long-term Motion Generation with Extended Joint Targets
作者: Eunjong Lee, Eunhee Kim, Sanghoon Hong, Eunho Jung, Jihoon Kim
分类: cs.CV
发布日期: 2025-12-04
备注: WACV 2026
💡 一句话要点
COMET:基于Transformer的实时可控长时程人体运动生成框架
🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱八:物理动画 (Physics-based Animation)
关键词: 人体运动生成 长时程控制 Transformer 条件变分自编码器 参考引导反馈 实时动画 运动风格迁移
📋 核心要点
- 现有方法在实时生成可控角色运动时,难以兼顾细粒度控制和长时程稳定性,限制了交互式应用。
- COMET利用Transformer条件VAE实现精确的关节控制,并引入参考引导反馈机制防止误差累积,保证长期时序稳定性。
- 实验表明,COMET在复杂运动控制任务中显著优于现有方法,并能实时生成高质量运动,适用于交互式应用。
📝 摘要(中文)
本文提出COMET,一个自回归框架,能够实时生成稳定且可控的角色运动。现有方法通常无法提供细粒度的控制,或者在长序列上出现运动退化,限制了其在交互式应用中的使用。COMET基于高效的Transformer条件变分自编码器,能够对任意用户指定的关节进行精确的交互式控制,适用于目标到达和中间帧生成等任务,且仅需单个模型。为了确保长期的时序稳定性,我们引入了一种新颖的参考引导反馈机制,以防止误差累积。该机制还可用作即插即用的风格化模块,实现实时的风格迁移。大量评估表明,COMET能够以实时速度稳健地生成高质量的运动,在复杂的运动控制任务中显著优于最先进的方法,并证实了其在苛刻的交互式应用中的适用性。
🔬 方法详解
问题定义:现有方法在生成长时程人体运动时,面临着两个主要问题:一是难以提供细粒度的控制,用户无法精确地控制特定关节的运动轨迹;二是容易出现运动退化,即随着时间推移,生成的运动变得不自然或不稳定。这些问题限制了这些方法在交互式应用中的应用,例如实时游戏或虚拟现实。
核心思路:COMET的核心思路是利用一个基于Transformer的条件变分自编码器(Conditional VAE)来学习运动数据的潜在空间,并在此基础上实现精确的关节控制。为了解决长时程运动生成中的误差累积问题,COMET引入了一种参考引导反馈机制,通过将生成的运动与参考运动进行比较,从而纠正误差并保持运动的稳定性。
技术框架:COMET的整体框架是一个自回归生成模型,它以当前时刻的运动状态和用户指定的关节目标作为输入,预测下一时刻的运动状态。该框架包含以下主要模块:1) 基于Transformer的条件VAE:用于学习运动数据的潜在空间,并实现精确的关节控制;2) 参考引导反馈机制:用于纠正误差并保持运动的稳定性;3) 运动生成模块:用于根据潜在空间中的表示生成最终的运动。
关键创新:COMET最重要的技术创新点在于其参考引导反馈机制。该机制通过将生成的运动与参考运动进行比较,从而纠正误差并保持运动的稳定性。与传统的误差校正方法不同,COMET的参考引导反馈机制能够自适应地调整校正强度,从而在保证运动稳定性的同时,避免过度校正导致运动不自然。
关键设计:COMET的关键设计包括:1) 使用Transformer作为条件VAE的编码器和解码器,以捕捉运动数据中的长期依赖关系;2) 设计了一种新的损失函数,该损失函数同时考虑了运动的自然性和与用户指定目标的匹配程度;3) 使用了一种基于动态时间规整(DTW)的算法来计算生成运动与参考运动之间的相似度,从而实现自适应的误差校正。
📊 实验亮点
COMET在多个运动控制任务中取得了显著的性能提升。例如,在目标到达任务中,COMET能够以更高的成功率和更低的误差到达目标位置。在长时程运动生成任务中,COMET能够生成更稳定、更自然的运动,并且能够更好地保持与用户指定目标的匹配程度。实验结果表明,COMET在运动质量和控制精度方面均优于现有方法。
🎯 应用场景
COMET具有广泛的应用前景,例如在游戏开发中,可以用于生成逼真且可控的角色运动,提高游戏的沉浸感。在虚拟现实和增强现实中,COMET可以用于创建交互式的虚拟角色,使用户能够与虚拟环境进行更自然的交互。此外,COMET还可以应用于机器人控制领域,用于生成机器人的运动轨迹,使其能够完成复杂的任务。
📄 摘要(原文)
Generating stable and controllable character motion in real-time is a key challenge in computer animation. Existing methods often fail to provide fine-grained control or suffer from motion degradation over long sequences, limiting their use in interactive applications. We propose COMET, an autoregressive framework that runs in real time, enabling versatile character control and robust long-horizon synthesis. Our efficient Transformer-based conditional VAE allows for precise, interactive control over arbitrary user-specified joints for tasks like goal-reaching and in-betweening from a single model. To ensure long-term temporal stability, we introduce a novel reference-guided feedback mechanism that prevents error accumulation. This mechanism also serves as a plug-and-play stylization module, enabling real-time style transfer. Extensive evaluations demonstrate that COMET robustly generates high-quality motion at real-time speeds, significantly outperforming state-of-the-art approaches in complex motion control tasks and confirming its readiness for demanding interactive applications.