Topology-Agnostic Animal Motion Generation from Text Prompt
作者: Keyi Chen, Mingze Sun, Zhenyu Liu, Zhangquan Chen, Ruqi Huang
分类: cs.CV
发布日期: 2025-12-11
备注: 10 pages, 7 figures.Conference submission
💡 一句话要点
提出OmniZoo数据集和拓扑无关的动物运动生成框架,解决异构骨骼和文本驱动的动物运动生成问题。
🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)
关键词: 动物运动生成 文本驱动运动 拓扑无关 骨骼嵌入 自回归模型
📋 核心要点
- 现有运动生成方法依赖固定骨骼模板,难以处理不同或扰动拓扑结构的动物骨骼。
- 提出拓扑感知的骨骼嵌入模块,将骨骼的几何和结构属性编码到共享空间,融合文本语义。
- 构建大规模动物运动数据集OmniZoo,包含140个物种和32,979个序列,并进行多模态标注。
📝 摘要(中文)
本文提出了一种拓扑无关的动物运动生成方法,旨在解决现有方法依赖固定骨骼模板,无法泛化到不同或扰动拓扑结构的问题。为此,作者构建了大规模动物运动数据集OmniZoo,包含140个物种和32,979个序列,并进行了多模态标注。基于OmniZoo,作者提出了一个广义的自回归运动生成框架,能够为任意骨骼拓扑生成文本驱动的运动。该模型的关键在于拓扑感知骨骼嵌入模块,它将任何骨骼的几何和结构属性编码到共享的token空间中,从而实现与文本语义的无缝融合。该方法能够生成时间连贯、物理合理且语义对齐的运动,并进一步实现跨物种的运动风格迁移。
🔬 方法详解
问题定义:现有运动生成方法主要依赖于固定的骨骼模板,这限制了它们在处理具有不同或扰动拓扑结构的动物骨骼时的泛化能力。缺乏大规模的、包含异构动物运动数据的数据集,以及能够统一建模任意骨骼拓扑和文本条件的生成框架,是当前方法的主要痛点。
核心思路:本文的核心思路是构建一个能够感知骨骼拓扑结构的嵌入模块,将不同拓扑结构的骨骼映射到统一的特征空间,从而实现与文本信息的有效融合。通过自回归的方式,逐步生成符合文本描述的、具有时间连贯性和物理合理性的动物运动。这种设计允许模型处理各种动物的骨骼结构,并根据文本提示生成相应的运动。
技术框架:整体框架包含三个主要模块:1) 拓扑感知骨骼嵌入模块:负责将骨骼的几何和结构信息编码为特征向量。2) 文本编码器:负责将文本提示编码为语义向量。3) 自回归运动生成器:基于骨骼嵌入和文本语义,逐步生成运动序列。该生成器通常采用Transformer架构,能够捕捉运动序列中的时间依赖关系。
关键创新:最重要的技术创新点在于拓扑感知骨骼嵌入模块。该模块能够学习到骨骼的内在结构,并将其表示为与拓扑结构无关的特征向量。这使得模型能够处理各种不同拓扑结构的骨骼,而无需针对每种骨骼结构进行单独训练。与现有方法相比,该方法具有更强的泛化能力和灵活性。
关键设计:拓扑感知骨骼嵌入模块可能使用图神经网络(GNN)来编码骨骼的连接关系和关节的几何信息。损失函数通常包括运动预测损失、文本对齐损失和物理合理性损失。运动预测损失用于确保生成的运动与文本描述一致,文本对齐损失用于确保骨骼嵌入与文本语义对齐,物理合理性损失用于确保生成的运动符合物理规律。
📊 实验亮点
论文构建了包含140个物种的大规模动物运动数据集OmniZoo。实验结果表明,该方法能够生成时间连贯、物理合理且语义对齐的动物运动。此外,该方法还能够实现跨物种的运动风格迁移,例如让一只猫模仿狗的跑步姿势。具体性能数据和对比基线信息未知。
🎯 应用场景
该研究成果可广泛应用于计算机动画、游戏开发、机器人控制和虚拟现实等领域。例如,可以根据文本描述自动生成各种动物的运动动画,为游戏角色赋予更逼真的行为,或者控制机器人模仿动物的运动方式。该技术还有潜力应用于生物力学研究,帮助分析和理解动物的运动机制。
📄 摘要(原文)
Motion generation is fundamental to computer animation and widely used across entertainment, robotics, and virtual environments. While recent methods achieve impressive results, most rely on fixed skeletal templates, which prevent them from generalizing to skeletons with different or perturbed topologies. We address the core limitation of current motion generation methods - the combined lack of large-scale heterogeneous animal motion data and unified generative frameworks capable of jointly modeling arbitrary skeletal topologies and textual conditions. To this end, we introduce OmniZoo, a large-scale animal motion dataset spanning 140 species and 32,979 sequences, enriched with multimodal annotations. Building on OmniZoo, we propose a generalized autoregressive motion generation framework capable of producing text-driven motions for arbitrary skeletal topologies. Central to our model is a Topology-aware Skeleton Embedding Module that encodes geometric and structural properties of any skeleton into a shared token space, enabling seamless fusion with textual semantics. Given a text prompt and a target skeleton, our method generates temporally coherent, physically plausible, and semantically aligned motions, and further enables cross-species motion style transfer.