Large-scale Codec Avatars: The Unreasonable Effectiveness of Large-scale Avatar Pretraining

作者: Junxuan Li, Rawal Khirodkar, Chengan He, Zhongshi Jiang, Giljoo Nam, Lingchen Yang, Jihyun Lee, Egor Zakharov, Zhaoen Su, Rinat Abdrashitov, Yuan Dong, Julieta Martinez, Kai Li, Qingyang Tan, Takaaki Shiratori, Matthew Hu, Peihong Guo, Xuhua Huang, Ariyan Zarei, Marco Pesavento, Yichen Xu, He Wen, Teng Deng, Wyatt Borsos, Anjali Thakrar, Jean-Charles Bazin, Carsten Stoll, Ginés Hidalgo, James Booth, Lucy Wang, Xiaowen Ma, Yu Rong, Sairanjith Thalanki, Chen Cao, Christian Häne, Abhishek Kar, Sofien Bouaziz, Jason Saragih, Yaser Sheikh, Shunsuke Saito

分类: cs.CV, cs.GR

发布日期: 2026-04-02

备注: Accepted in CVPR2026. Website: https://junxuan-li.github.io/lca

💡 一句话要点

提出大规模编解码Avatar（LCA），通过预训练和后训练范式提升3D头像建模的泛化性和保真度。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 3D头像建模 预训练 后训练 大规模数据 泛化能力 高保真度 编解码Avatar

📋 核心要点

现有3D头像建模方法难以兼顾高保真度和真实世界泛化能力，工作室数据质量高但泛化性差，大规模数据泛化性好但质量低。
LCA采用预训练和后训练范式，先在大规模真实数据上学习先验知识，再在高品质数据上提升细节表现力。
实验表明LCA在身份保持、表情控制、服装支持等方面表现出色，并展现出对光照和风格化图像的零样本泛化能力。

📝 摘要（中文）

高质量3D头像建模面临着保真度和泛化性之间的关键权衡。一方面，多视角工作室数据能够对人类进行高保真建模，并精确控制表情和姿势，但由于规模有限以及工作室环境与真实世界之间的领域差距，难以泛化到真实世界数据。另一方面，最近在数百万真实样本上训练的大规模头像模型在跨身份泛化方面显示出潜力，但由于固有的3D模糊性，生成的头像质量通常较低。为了解决这个问题，我们提出了大规模编解码头像（LCA），这是一种高保真、全身3D头像模型，可以以feedforward方式泛化到世界级规模的人群，从而实现高效的推理。受到大型语言模型和视觉基础模型成功的启发，我们首次提出了用于大规模3D头像建模的预/后训练范式：我们首先在100万个真实视频上进行预训练，以学习外观和几何形状的广泛先验知识，然后在高品质的精选数据上进行后训练，以增强表现力和保真度。LCA可以泛化到各种发型、服装和人群，同时提供精确、细粒度的面部表情和手指级关节控制，并具有很强的身份保持能力。值得注意的是，我们观察到对光照变化和宽松服装支持的涌现泛化，以及对风格化图像的零样本鲁棒性，尽管缺乏直接监督。

🔬 方法详解

问题定义：现有3D头像建模方法在高保真度和泛化性之间存在trade-off。基于多视角工作室数据的方法虽然能实现高保真建模和精确控制，但由于数据规模和领域差异，难以泛化到真实世界。而基于大规模真实数据的方法虽然泛化性好，但由于3D模糊性，模型质量较低。

核心思路：借鉴大型语言模型和视觉基础模型的成功经验，采用预训练和后训练的范式。预训练阶段利用大规模真实数据学习外观和几何形状的先验知识，后训练阶段利用高质量数据提升模型的表现力和保真度。这种方法旨在结合两种方法的优点，实现高保真和高泛化性的3D头像建模。

技术框架：LCA的整体框架包含预训练和后训练两个阶段。预训练阶段使用大规模的in-the-wild视频数据，训练一个能够捕捉通用外观和几何先验的模型。后训练阶段则使用高质量的精选数据，对预训练模型进行微调，以提升模型的细节表现力和保真度。整个过程采用feedforward的方式进行推理，保证了高效的inference速度。

关键创新：LCA的关键创新在于将预训练和后训练的范式引入到3D头像建模中，并成功地在大规模数据上进行了验证。这种方法能够有效地利用大规模数据的泛化能力和高质量数据的细节表现力，从而实现高保真和高泛化性的3D头像建模。此外，LCA还展现出对光照变化和宽松服装支持的涌现泛化能力，以及对风格化图像的零样本鲁棒性。

关键设计：论文中没有明确给出关键参数设置、损失函数和网络结构的具体细节。这些细节可能属于商业机密或者需要进一步的研究才能确定。但是，可以推测，预训练阶段可能使用了对比学习或者自监督学习的方法来学习外观和几何形状的先验知识。后训练阶段可能使用了监督学习的方法，并结合了多种损失函数来提升模型的细节表现力和保真度。具体的网络结构未知。

🖼️ 关键图片

📊 实验亮点

LCA在身份保持、表情控制和服装支持方面表现出色，并且在没有直接监督的情况下，对光照变化和风格化图像展现出强大的零样本泛化能力。具体性能数据和对比基线在摘要中没有明确给出，需要查阅论文全文才能获取。

🎯 应用场景

LCA在虚拟现实、增强现实、游戏、社交媒体等领域具有广泛的应用前景。它可以用于创建逼真的虚拟化身，提升用户在虚拟环境中的沉浸感和交互体验。此外，LCA还可以用于个性化内容生成、虚拟试穿、远程协作等应用，具有重要的实际价值和未来影响。

📄 摘要（原文）

High-quality 3D avatar modeling faces a critical trade-off between fidelity and generalization. On the one hand, multi-view studio data enables high-fidelity modeling of humans with precise control over expressions and poses, but it struggles to generalize to real-world data due to limited scale and the domain gap between the studio environment and the real world. On the other hand, recent large-scale avatar models trained on millions of in-the-wild samples show promise for generalization across a wide range of identities, yet the resulting avatars are often of low-quality due to inherent 3D ambiguities. To address this, we present Large-Scale Codec Avatars (LCA), a high-fidelity, full-body 3D avatar model that generalizes to world-scale populations in a feedforward manner, enabling efficient inference. Inspired by the success of large language models and vision foundation models, we present, for the first time, a pre/post-training paradigm for 3D avatar modeling at scale: we pretrain on 1M in-the-wild videos to learn broad priors over appearance and geometry, then post-train on high-quality curated data to enhance expressivity and fidelity. LCA generalizes across hair styles, clothing, and demographics while providing precise, fine-grained facial expressions and finger-level articulation control, with strong identity preservation. Notably, we observe emergent generalization to relightability and loose garment support to unconstrained inputs, and zero-shot robustness to stylized imagery, despite the absence of direct supervision.

Large-scale Codec Avatars: The Unreasonable Effectiveness of Large-scale Avatar Pretraining

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理