REFA: Real-time Egocentric Facial Animations for Virtual Reality
作者: Qiang Zhang, Tong Xiao, Haroun Habeeb, Larissa Laich, Sofien Bouaziz, Patrick Snape, Wenjing Zhang, Matthew Cioffi, Peizhao Zhang, Pavel Pidlypenskyi, Winnie Lin, Luming Ma, Mengjiao Wang, Kunpeng Li, Chengjiang Long, Steven Song, Martin Prazak, Alexander Sjoholm, Ajinkya Deogade, Jaebong Lee, Julio Delgado Mangas, Amaury Aubel
分类: cs.CV
发布日期: 2026-01-07
备注: CVPR 2024 Workshop
💡 一句话要点
提出基于VR头显内红外相机的实时面部动画系统,无需校准。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱六:视频提取与匹配 (Video Extraction)
关键词: 面部动画 虚拟现实 红外相机 知识蒸馏 可微渲染 实时跟踪 人机交互
📋 核心要点
- 现有面部动画系统通常需要复杂的校准过程或外部设备,限制了VR环境中的自然交互。
- 该方法利用VR头显内置的红外相机,结合知识蒸馏技术,实现实时、非侵入式的面部表情捕捉和动画驱动。
- 通过可微渲染管线自动生成面部表情标签,并使用包含1.8万个主体的多样化数据集进行训练,提升了模型的泛化能力。
📝 摘要(中文)
本文提出了一种新颖的系统,用于实时跟踪面部表情。该系统利用嵌入在虚拟现实(VR)头显中的一组以自我为中心的红外相机捕捉图像。我们的技术使得任何用户都能够以非侵入式的方式,准确地驱动虚拟角色的面部表情,而无需冗长的校准步骤。该系统的核心是基于知识蒸馏的方法,用于在来自多个来源的异构数据和标签上训练机器学习模型,例如合成图像和真实图像。作为数据集的一部分,我们使用轻量级的捕获设置收集了1.8万个不同的主体,该设置包括一部手机和一个带有额外相机的定制VR头显。为了处理这些数据,我们开发了一个强大的可微渲染管线,使我们能够自动提取面部表情标签。我们的系统为虚拟环境中的通信和表达开辟了新的途径,可应用于视频会议、游戏、娱乐和远程协作。
🔬 方法详解
问题定义:现有面部动画系统通常需要繁琐的校准过程,或者依赖外部设备,例如深度相机或标记点,这限制了它们在VR环境中的易用性和沉浸感。用户希望在VR环境中能够自然地表达自己的情感,而无需进行复杂的设置。
核心思路:本文的核心思路是利用VR头显内置的红外相机,从以自我为中心的视角捕捉面部图像,并使用机器学习模型将这些图像转换为虚拟角色的面部表情。通过知识蒸馏,将从合成数据和真实数据中学习到的知识融合到一个模型中,从而提高模型的鲁棒性和泛化能力。
技术框架:该系统包含以下主要模块:1) 数据采集:使用VR头显上的红外相机捕捉用户的面部图像。2) 数据处理:对采集到的图像进行预处理,例如人脸检测和对齐。3) 模型训练:使用包含合成数据和真实数据的数据集训练面部表情识别模型。该模型采用知识蒸馏方法,从多个来源的标签中学习。4) 实时动画驱动:将处理后的图像输入到训练好的模型中,实时生成虚拟角色的面部表情。
关键创新:该方法的主要创新点在于:1) 使用VR头显内置的红外相机进行面部表情捕捉,无需额外的外部设备。2) 采用知识蒸馏方法,融合来自合成数据和真实数据的知识,提高模型的鲁棒性和泛化能力。3) 开发了可微渲染管线,自动生成面部表情标签,降低了数据标注的成本。
关键设计:该系统使用了深度卷积神经网络作为面部表情识别模型。损失函数包括表情分类损失和landmark回归损失。知识蒸馏通过最小化学生模型和教师模型输出之间的差异来实现。可微渲染管线使用Blender等工具生成合成数据,并自动提取面部表情参数作为标签。数据集包含1.8万个不同的主体,涵盖了各种种族、年龄和性别。
📊 实验亮点
该系统在实时性和准确性方面都表现出色。通过使用知识蒸馏和大规模数据集,模型能够有效地泛化到不同的用户和环境。实验结果表明,该系统能够准确地捕捉用户的面部表情,并将其实时地映射到虚拟角色上,从而实现自然流畅的面部动画。与传统的基于标记点的方法相比,该系统无需繁琐的校准过程,大大提高了易用性。
🎯 应用场景
该研究成果可广泛应用于虚拟现实环境中的人机交互,例如视频会议、在线教育、游戏娱乐和远程协作。用户可以通过自然的面部表情与虚拟角色进行互动,增强沉浸感和真实感。该技术还可以用于创建更逼真的虚拟化身,提升社交体验。未来,该技术有望应用于医疗康复、心理治疗等领域。
📄 摘要(原文)
We present a novel system for real-time tracking of facial expressions using egocentric views captured from a set of infrared cameras embedded in a virtual reality (VR) headset. Our technology facilitates any user to accurately drive the facial expressions of virtual characters in a non-intrusive manner and without the need of a lengthy calibration step. At the core of our system is a distillation based approach to train a machine learning model on heterogeneous data and labels coming form multiple sources, \eg synthetic and real images. As part of our dataset, we collected 18k diverse subjects using a lightweight capture setup consisting of a mobile phone and a custom VR headset with extra cameras. To process this data, we developed a robust differentiable rendering pipeline enabling us to automatically extract facial expression labels. Our system opens up new avenues for communication and expression in virtual environments, with applications in video conferencing, gaming, entertainment, and remote collaboration.