LiftAvatar: Kinematic-Space Completion for Expression-Controlled 3D Gaussian Avatar Animation

📄 arXiv: 2603.02129v1 📥 PDF

作者: Hualiang Wei, Shunran Jia, Jialun Liu, Wenhui Li

分类: cs.CV, cs.AI

发布日期: 2026-03-02

备注: 19 pages, 11 figures


💡 一句话要点

LiftAvatar:通过运动空间补全实现表情控制的3D高斯头像动画

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 3D头像动画 运动空间补全 视频扩散模型 表情控制 单目视频 高斯溅射 多参考学习

📋 核心要点

  1. 现有基于单目视频的3D高斯头像动画方法,受限于稀疏的运动信息,导致表情表现力不足和重建质量下降。
  2. LiftAvatar通过将稀疏的单目观测提升到更丰富的运动空间表示,并结合多粒度表情控制和多参考条件机制,增强了3D头像的重建和动画效果。
  3. 实验表明,LiftAvatar显著提升了现有3D头像方法的动画质量和定量指标,尤其是在处理极端表情时效果更佳。

📝 摘要(中文)

LiftAvatar 提出了一种新的范例,它在运动空间(例如,面部表情和头部姿势)中补全稀疏的单目观测,并使用补全后的信号来驱动高保真头像动画。LiftAvatar 是一个细粒度的、表情可控的大规模视频扩散 Transformer,它在单个或多个参考图像的条件下合成高质量、时间上连贯的表情序列。核心思想是将不完整的输入数据提升到更丰富的运动表示中,从而加强下游 3D 头像管道中的重建和动画效果。为此,我们引入了 (i) 一种多粒度表情控制方案,它将阴影图与表情系数相结合,以实现精确和稳定的驱动,以及 (ii) 一种多参考条件机制,它聚合来自多个帧的互补线索,从而实现强大的 3D 一致性和可控性。作为一种即插即用的增强器,LiftAvatar 直接解决了基于 3D 高斯 Splatting 的头像由于日常单目视频中稀疏的运动线索而导致的有限的表现力和重建伪影。通过将不完整的观测扩展到不同的姿势-表情变化,LiftAvatar 还可以有效地将大规模视频生成模型中的先验知识提炼到 3D 管道中,从而带来显著的增益。大量实验表明,LiftAvatar 始终如一地提高了最先进的 3D 头像方法的动画质量和定量指标,尤其是在极端、未见过的表情下。

🔬 方法详解

问题定义:论文旨在解决从单目视频中驱动高保真3D头像动画的问题。现有方法,特别是基于3D高斯溅射的方法,在处理日常单目视频时,由于运动线索稀疏,导致头像表情表现力有限,且容易出现重建伪影。这些问题限制了3D头像在实际应用中的表现力。

核心思路:LiftAvatar的核心思路是将不完整的单目观测数据“提升”到一个更丰富的运动空间表示中。通过学习一个大规模视频扩散Transformer,该模型能够根据单个或多个参考图像,生成高质量、时间连贯的表情序列。这种“提升”过程相当于对稀疏的运动信息进行补全,从而为后续的3D头像动画提供更充分的驱动信号。

技术框架:LiftAvatar的技术框架主要包含以下几个阶段:1) 运动空间补全:利用视频扩散Transformer,根据输入的单目图像和稀疏的运动参数(如面部表情系数和头部姿势),生成完整的运动空间表示。2) 多粒度表情控制:结合阴影图和表情系数,实现对头像表情的精确和稳定控制。3) 多参考条件机制:聚合来自多个参考帧的互补信息,增强3D一致性和可控性。4) 3D头像驱动:使用补全后的运动空间表示驱动基于3D高斯溅射的头像模型,生成最终的动画序列。

关键创新:LiftAvatar的关键创新在于运动空间补全的思想,以及多粒度表情控制和多参考条件机制的引入。与现有方法直接使用稀疏的运动信息驱动3D头像不同,LiftAvatar首先对运动信息进行补全,从而提高了头像的表现力和动画质量。多粒度表情控制和多参考条件机制进一步增强了表情的精确性和3D一致性。

关键设计:在多粒度表情控制方面,论文结合了阴影图和表情系数,以实现更精细的表情控制。阴影图提供了局部细节信息,而表情系数则提供了全局的表情控制。在多参考条件机制方面,论文设计了一种聚合来自多个参考帧信息的策略,以增强3D一致性。具体的网络结构和损失函数等细节在论文中进行了详细描述(未知)。

📊 实验亮点

实验结果表明,LiftAvatar在动画质量和定量指标上均优于现有方法。特别是在处理极端、未见过的表情时,LiftAvatar的优势更加明显。通过将LiftAvatar作为即插即用的增强器,可以显著提升现有3D头像方法的性能,例如,在某些指标上提升幅度超过XX%(具体数值未知)。

🎯 应用场景

LiftAvatar具有广泛的应用前景,包括虚拟现实/增强现实(VR/AR)、游戏、社交媒体、远程会议等领域。它可以用于创建更逼真、更具表现力的虚拟化身,提升用户在虚拟环境中的沉浸感和交互体验。此外,该技术还可以用于生成高质量的动画内容,例如电影、电视节目等。

📄 摘要(原文)

We present LiftAvatar, a new paradigm that completes sparse monocular observations in kinematic space (e.g., facial expressions and head pose) and uses the completed signals to drive high-fidelity avatar animation. LiftAvatar is a fine-grained, expression-controllable large-scale video diffusion Transformer that synthesizes high-quality, temporally coherent expression sequences conditioned on single or multiple reference images. The key idea is to lift incomplete input data into a richer kinematic representation, thereby strengthening both reconstruction and animation in downstream 3D avatar pipelines. To this end, we introduce (i) a multi-granularity expression control scheme that combines shading maps with expression coefficients for precise and stable driving, and (ii) a multi-reference conditioning mechanism that aggregates complementary cues from multiple frames, enabling strong 3D consistency and controllability. As a plug-and-play enhancer, LiftAvatar directly addresses the limited expressiveness and reconstruction artifacts of 3D Gaussian Splatting-based avatars caused by sparse kinematic cues in everyday monocular videos. By expanding incomplete observations into diverse pose-expression variations, LiftAvatar also enables effective prior distillation from large-scale video generative models into 3D pipelines, leading to substantial gains. Extensive experiments show that LiftAvatar consistently boosts animation quality and quantitative metrics of state-of-the-art 3D avatar methods, especially under extreme, unseen expressions.