Mixture of Global and Local Experts with Diffusion Transformer for Controllable Face Generation

📄 arXiv: 2509.00428v1 📥 PDF

作者: Xuechao Zou, Shun Zhang, Xing Fu, Yue Li, Kai Li, Yushe Cao, Congyan Lang, Pin Tao, Junliang Xing

分类: cs.CV

发布日期: 2025-08-30

备注: 14 pages, 11 figures

🔗 代码/项目: GITHUB


💡 一句话要点

提出Face-MoGLE以解决可控人脸生成问题

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 可控人脸生成 扩散变换器 专家专门化 动态门控网络 生成建模 零样本泛化 多模态生成

📋 核心要点

  1. 现有可控人脸生成方法在语义控制与生成真实感之间难以取得平衡,导致生成效果不理想。
  2. 本文提出Face-MoGLE框架,通过专家专门化和动态门控网络实现精确的属性操控与细粒度可控性。
  3. 实验结果显示Face-MoGLE在多模态和单模态人脸生成任务中表现优异,具备强大的零样本泛化能力。

📝 摘要(中文)

可控人脸生成在生成建模中面临着语义可控性与真实感之间的复杂平衡。现有方法在从生成管道中解耦语义控制方面存在困难。本文通过专家专门化的视角重新审视扩散变换器(DiTs)的架构潜力,提出了Face-MoGLE框架。该框架包括:1) 通过掩码条件空间因式分解实现语义解耦的潜在建模,支持精确的属性操控;2) 混合全局与局部专家,捕捉整体结构与区域级语义,实现细粒度可控性;3) 动态门控网络生成随扩散步骤和空间位置变化的时间依赖系数。Face-MoGLE为高质量、可控的人脸生成提供了强大而灵活的解决方案,具有在生成建模和安全应用中的强大潜力。大量实验表明其在多模态和单模态人脸生成设置中的有效性及其强大的零样本泛化能力。

🔬 方法详解

问题定义:本文旨在解决可控人脸生成中的语义可控性与真实感之间的矛盾。现有方法在解耦语义控制与生成过程方面存在显著不足,导致生成结果的可控性和质量不高。

核心思路:Face-MoGLE框架通过引入专家专门化的概念,结合扩散变换器,旨在实现更高效的语义控制与生成质量。通过动态门控网络,模型能够根据扩散步骤和空间位置动态调整生成过程。

技术框架:Face-MoGLE的整体架构包括三个主要模块:1) 掩码条件空间因式分解模块,实现语义解耦;2) 混合全局与局部专家模块,捕捉不同层次的语义信息;3) 动态门控网络,生成时间依赖的控制系数。

关键创新:本研究的核心创新在于引入混合全局与局部专家的机制,使得模型能够在生成过程中灵活调整语义控制,显著提升了生成的可控性与真实感。

关键设计:在模型设计中,采用了特定的损失函数以平衡生成质量与可控性,同时在网络结构上引入了动态门控机制,以适应不同的生成场景和需求。具体的参数设置和网络层次结构在实验部分进行了详细说明。

📊 实验亮点

在实验中,Face-MoGLE在多模态和单模态人脸生成任务中表现出色,生成质量显著优于现有基线方法,尤其在零样本泛化能力方面展现出强大的优势,具体性能数据未详述。

🎯 应用场景

Face-MoGLE框架在可控人脸生成领域具有广泛的应用潜力,尤其在虚拟现实、游戏开发和安全监控等领域。其高质量的生成能力和灵活的属性操控使其在生成建模和安全应用中具备重要的实际价值,未来可能推动相关技术的进一步发展。

📄 摘要(原文)

Controllable face generation poses critical challenges in generative modeling due to the intricate balance required between semantic controllability and photorealism. While existing approaches struggle with disentangling semantic controls from generation pipelines, we revisit the architectural potential of Diffusion Transformers (DiTs) through the lens of expert specialization. This paper introduces Face-MoGLE, a novel framework featuring: (1) Semantic-decoupled latent modeling through mask-conditioned space factorization, enabling precise attribute manipulation; (2) A mixture of global and local experts that captures holistic structure and region-level semantics for fine-grained controllability; (3) A dynamic gating network producing time-dependent coefficients that evolve with diffusion steps and spatial locations. Face-MoGLE provides a powerful and flexible solution for high-quality, controllable face generation, with strong potential in generative modeling and security applications. Extensive experiments demonstrate its effectiveness in multimodal and monomodal face generation settings and its robust zero-shot generalization capability. Project page is available at https://github.com/XavierJiezou/Face-MoGLE.