Disentangled Representation Learning via Modular Compositional Bias
作者: Whie Jung, Dong Hoon Lee, Seunghoon Hong
分类: cs.LG, cs.CV
发布日期: 2025-10-24 (更新: 2025-11-11)
期刊: Advances in Neural Information Processing Systems (NeurIPS), 2025
🔗 代码/项目: GITHUB
💡 一句话要点
提出基于模块化组合偏置的解耦表示学习方法,实现属性、对象及其联合解耦。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 解耦表示学习 组合偏置 归纳偏置 图像生成 风格迁移
📋 核心要点
- 现有解耦表示学习方法依赖于特定因素的策略,当新因素出现或多因素共存时,需要重新设计架构或目标。
- 论文提出一种组合偏置,通过模块化的归纳偏置,解耦目标和架构,利用因素特定的重组规则进行潜在变量的混合。
- 实验表明,该方法在属性和对象解耦方面具有竞争力,并能实现全局风格和对象的联合解耦,无需修改目标或架构。
📝 摘要(中文)
现有的解耦表示学习(DRL)方法严重依赖于特定因素的策略——属性的学习目标或对象的模型架构——来嵌入归纳偏置。当新的变异因素与先前的假设(如统计独立性或空间排他性)不一致,或者当多个因素共存时,这种不同的方法会导致显著的开销,因为从业者必须重新设计架构或目标。为了解决这个问题,我们提出了一种组合偏置,一种与目标和架构解耦的模块化归纳偏置。我们的关键见解是,不同的因素在数据分布中遵循不同的重组规则:全局属性是互斥的,例如,一张脸只有一个鼻子,而对象共享一个共同的支持(任何对象的子集都可以共存)。因此,我们根据特定因素的规则(即混合策略)随机地重新混合潜在变量,并迫使编码器通过两个互补的目标来发现混合策略所反映的因素结构:(i)先验损失,确保每个重混解码成一个真实的图像,以及(ii)Wiedemer等人引入的组合一致性损失,它将每个合成图像与其对应的合成潜在变量对齐。在这个通用框架下,简单地调整混合策略就可以实现属性、对象甚至两者的解耦,而无需修改目标或架构。大量的实验表明,我们的方法在属性和对象解耦方面都表现出有竞争力的性能,并且独特地实现了全局风格和对象的联合解耦。代码可在https://github.com/whieya/Compositional-DRL获得。
🔬 方法详解
问题定义:现有的解耦表示学习方法通常针对特定类型的因素(例如,属性或对象)设计特定的学习目标或模型架构。当需要处理新的、未知的因素,或者当多个因素以复杂的方式共存时,这些方法往往需要进行大量的修改和重新设计,缺乏通用性和灵活性。现有方法难以同时解耦全局属性(如风格)和局部对象。
核心思路:论文的核心思想是引入一种与目标函数和模型架构解耦的模块化组合偏置。通过观察到不同因素在数据分布中遵循不同的重组规则(例如,全局属性互斥,对象可以共存),论文提出根据这些规则随机混合潜在变量,并训练编码器学习这些混合规则所反映的因素结构。这种方法允许通过简单地调整混合策略来实现不同类型因素的解耦,而无需修改模型架构或损失函数。
技术框架:整体框架包括一个编码器和一个解码器。编码器将输入图像映射到潜在空间,然后根据预定义的混合策略对潜在变量进行重组。解码器将重组后的潜在变量映射回图像空间。框架包含两个主要损失函数:(1) 先验损失,用于确保重组后的潜在变量能够解码成真实的图像;(2) 组合一致性损失,用于对齐合成图像和对应的合成潜在变量。
关键创新:最重要的创新点在于提出了模块化的组合偏置,它是一种与目标函数和模型架构解耦的归纳偏置。这种偏置允许通过简单地调整混合策略来控制模型学习到的因素结构,从而实现不同类型因素的解耦。与现有方法相比,该方法更加通用和灵活,能够处理更复杂的多因素解耦问题。
关键设计:关键设计包括:(1) 因素特定的混合策略:根据不同因素的重组规则(例如,互斥或共存)设计不同的混合策略。(2) 组合一致性损失:使用Wiedemer等人提出的组合一致性损失来对齐合成图像和对应的合成潜在变量,确保模型能够学习到正确的因素结构。(3) 先验损失:确保重组后的潜在变量能够解码成真实的图像,防止模型生成不合理的图像。
📊 实验亮点
实验结果表明,该方法在属性和对象解耦方面都表现出有竞争力的性能。特别地,该方法能够独特地实现全局风格和对象的联合解耦,而现有方法通常只能处理单一类型的因素。实验结果验证了该方法在处理复杂多因素解耦问题上的优势。
🎯 应用场景
该研究成果可应用于图像编辑、图像生成、风格迁移等领域。例如,可以用于控制图像中不同对象的出现和位置,或者改变图像的全局风格而不影响对象的内容。该方法在机器人视觉、自动驾驶等领域也有潜在应用价值,可以帮助机器人更好地理解和操作复杂环境。
📄 摘要(原文)
Recent disentangled representation learning (DRL) methods heavily rely on factor specific strategies-either learning objectives for attributes or model architectures for objects-to embed inductive biases. Such divergent approaches result in significant overhead when novel factors of variation do not align with prior assumptions, such as statistical independence or spatial exclusivity, or when multiple factors coexist, as practitioners must redesign architectures or objectives. To address this, we propose a compositional bias, a modular inductive bias decoupled from both objectives and architectures. Our key insight is that different factors obey distinct recombination rules in the data distribution: global attributes are mutually exclusive, e.g., a face has one nose, while objects share a common support (any subset of objects can co-exist). We therefore randomly remix latents according to factor-specific rules, i.e., a mixing strategy, and force the encoder to discover whichever factor structure the mixing strategy reflects through two complementary objectives: (i) a prior loss that ensures every remix decodes into a realistic image, and (ii) the compositional consistency loss introduced by Wiedemer et al. (arXiv:2310.05327), which aligns each composite image with its corresponding composite latent. Under this general framework, simply adjusting the mixing strategy enables disentanglement of attributes, objects, and even both, without modifying the objectives or architectures. Extensive experiments demonstrate that our method shows competitive performance in both attribute and object disentanglement, and uniquely achieves joint disentanglement of global style and objects. Code is available at https://github.com/whieya/Compositional-DRL.