T2Bs: Text-to-Character Blendshapes via Video Generation
作者: Jiahao Luo, Chaoyang Wang, Michael Vasilkovsky, Vladislav Shakhrai, Di Liu, Peiye Zhuang, Sergey Tulyakov, Peter Wonka, Hsin-Ying Lee, James Davis, Jian Wang
分类: cs.GR
发布日期: 2025-09-12 (更新: 2025-09-26)
💡 一句话要点
T2Bs:通过视频生成实现文本到角色Blendshape的转换
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱四:生成式动作 (Generative Motion)
关键词: 文本到3D 视频扩散 形变模型 3D高斯溅射 可动画角色 面部表情 几何一致性
📋 核心要点
- 现有文本到3D模型缺乏运动合成能力,而视频扩散模型存在时序和视角几何不一致性。
- T2Bs利用可变形3D高斯溅射对齐静态3D资产和视频输出,解决运动合成和几何一致性问题。
- 实验表明,T2Bs在准确性和表现力上优于现有4D生成方法,并减少了视频伪影和视角不一致性。
📝 摘要(中文)
T2Bs是一个框架,它通过结合静态的文本到3D生成和视频扩散,从文本生成高质量、可动画的角色头部形变模型。文本到3D模型可以生成详细的静态几何体,但缺乏运动合成能力;而视频扩散模型可以生成运动,但存在时间和多视角几何不一致性。T2Bs通过利用可变形的3D高斯溅射将静态3D资产与视频输出对齐来弥合这一差距。通过使用静态几何体约束运动,并采用视角相关的形变MLP,T2Bs在准确性和表现力方面优于现有的4D生成方法,同时减少了视频伪影和视角不一致性,并重建了平滑、连贯、完全注册的3D几何体,旨在扩展以构建具有多样化、逼真面部运动的形变模型。这使得能够合成富有表现力、可动画的角色头部,超越了当前的4D生成技术。
🔬 方法详解
问题定义:论文旨在解决从文本生成高质量、可动画角色头部形变模型的问题。现有方法,如文本到3D模型,虽然能生成静态几何细节,但缺乏运动合成能力。而视频扩散模型虽然能生成运动,但存在时间和多视角几何不一致性,导致生成结果不真实、难以控制。
核心思路:论文的核心思路是将静态的文本到3D生成与视频扩散相结合,利用静态3D几何体约束视频扩散生成的运动,从而保证几何一致性,并利用视频扩散提供运动信息,弥补静态3D模型的不足。通过这种方式,既能生成高质量的几何细节,又能生成逼真的动画效果。
技术框架:T2Bs框架主要包含以下几个阶段:1) 使用文本到3D模型生成静态3D几何体;2) 使用视频扩散模型生成视频序列;3) 利用可变形3D高斯溅射将静态3D几何体与视频输出对齐;4) 使用视角相关的形变MLP对3D几何体进行形变,生成最终的可动画角色头部形变模型。
关键创新:该方法最重要的创新点在于将静态3D生成与视频扩散相结合,并利用可变形3D高斯溅射进行对齐。与现有方法相比,T2Bs能够更好地平衡几何细节和运动真实性,减少视频伪影和视角不一致性。此外,视角相关的形变MLP能够更好地捕捉面部表情的细微变化。
关键设计:在可变形3D高斯溅射中,论文设计了特定的损失函数来保证对齐的准确性。视角相关的形变MLP的网络结构和训练方式也经过精心设计,以保证形变的平滑性和真实性。此外,论文还对3D高斯溅射的参数进行了优化,以提高渲染质量。
📊 实验亮点
实验结果表明,T2Bs在准确性和表现力方面优于现有的4D生成方法。通过定量评估和定性比较,T2Bs能够生成更逼真、更流畅的动画效果,并减少视频伪影和视角不一致性。与基线方法相比,T2Bs在面部表情的细节和运动的真实性方面都有显著提升。
🎯 应用场景
该研究成果可应用于虚拟角色生成、动画制作、游戏开发、虚拟现实和增强现实等领域。通过输入文本描述,即可快速生成具有逼真面部表情和动画效果的3D角色模型,极大地降低了内容创作的门槛,并为用户提供更加个性化和沉浸式的体验。未来,该技术有望进一步扩展到全身角色生成和更复杂的动画控制。
📄 摘要(原文)
We present T2Bs, a framework for generating high-quality, animatable character head morphable models from text by combining static text-to-3D generation with video diffusion. Text-to-3D models produce detailed static geometry but lack motion synthesis, while video diffusion models generate motion with temporal and multi-view geometric inconsistencies. T2Bs bridges this gap by leveraging deformable 3D Gaussian splatting to align static 3D assets with video outputs. By constraining motion with static geometry and employing a view-dependent deformation MLP, T2Bs (i) outperforms existing 4D generation methods in accuracy and expressiveness while reducing video artifacts and view inconsistencies, and (ii) reconstructs smooth, coherent, fully registered 3D geometries designed to scale for building morphable models with diverse, realistic facial motions. This enables synthesizing expressive, animatable character heads that surpass current 4D generation techniques.