Impute-MACFM: Imputation based on Mask-Aware Flow Matching

📄 arXiv: 2509.23126v1 📥 PDF

作者: Dengyi Liu, Honggang Wang, Hua Fang

分类: cs.LG

发布日期: 2025-09-27

备注: Preprint, 2025. 9 pages (main) + appendix


💡 一句话要点

提出Impute-MACFM,基于掩码感知流匹配实现更鲁棒高效的表格数据插补,尤其适用于纵向数据。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 表格数据插补 缺失值处理 条件流匹配 掩码感知 纵向数据

📋 核心要点

  1. 现有表格数据插补方法存在假设限制、难以处理复杂特征结构、生成模型不稳定和推理成本高等问题。
  2. Impute-MACFM利用掩码感知条件流匹配,仅在缺失值上构建轨迹,并约束观测值附近的预测速度,从而解决缺失机制问题。
  3. 实验表明,Impute-MACFM在各种基准测试中实现了最先进的插补效果,并具有更强的鲁棒性和更高的效率。

📝 摘要(中文)

表格数据在许多应用中至关重要,尤其是在医疗保健领域的纵向数据中,缺失值普遍存在,降低了模型的保真度和可靠性。以往的插补方法要么施加限制性假设,要么难以处理复杂的跨特征结构,而最近的生成方法则存在不稳定性和高昂的推理成本。我们提出了Impute-MACFM,一个用于表格插补的掩码感知条件流匹配框架,可以解决完全随机缺失、随机缺失和非随机缺失等缺失机制。其掩码感知目标仅在缺失条目上构建轨迹,同时使用灵活的非线性调度将预测速度约束在观测条目附近保持接近于零。Impute-MACFM结合了:(i)观测位置的稳定性惩罚,(ii)强制局部不变性的一致性正则化,以及(iii)数值特征的时间衰减噪声注入。推理使用约束保持常微分方程积分,并通过每步投影来固定观测值,可以选择聚合多个轨迹以提高鲁棒性。在各种基准测试中,Impute-MACFM取得了最先进的结果,同时提供了比竞争方法更鲁棒、高效和更高质量的插补,确立了流匹配作为表格缺失数据问题(包括纵向数据)的一个有希望的方向。

🔬 方法详解

问题定义:论文旨在解决表格数据中缺失值插补的问题,尤其关注医疗保健等领域的纵向数据。现有方法的痛点在于,传统方法假设过于严格,无法捕捉复杂的特征间关系;而新兴的生成模型则面临训练不稳定和推理成本过高的挑战。此外,还需要考虑不同的缺失机制(MCAR, MAR, MNAR)。

核心思路:论文的核心思路是利用条件流匹配(Conditional Flow Matching, CFM)框架,学习一个从噪声到真实数据的连续变换。通过引入掩码感知机制,模型能够区分观测值和缺失值,并有针对性地进行插补。关键在于,模型只在缺失值的位置上构建流,而在观测值的位置上保持稳定,从而避免破坏已有的信息。

技术框架:Impute-MACFM的整体框架基于条件流匹配。给定一个包含缺失值的表格数据,模型首先根据缺失模式生成一个掩码。然后,模型学习一个条件向量场,该向量场定义了从噪声分布到数据分布的连续轨迹。在推理阶段,使用常微分方程(ODE)求解器沿着该轨迹进行积分,从而生成插补后的数据。为了保证插补的质量,模型还引入了稳定性惩罚、一致性正则化和时间衰减噪声注入等技术。

关键创新:Impute-MACFM的关键创新在于其掩码感知机制。传统的CFM方法通常忽略缺失模式,直接学习从噪声到完整数据的映射。而Impute-MACFM通过显式地考虑掩码,使得模型能够更加精确地控制插补过程。此外,论文还提出了一系列正则化技术,以提高模型的稳定性和鲁棒性。

关键设计:在技术细节方面,Impute-MACFM使用了灵活的非线性调度函数来控制噪声注入的强度。为了保证观测值的稳定性,模型引入了稳定性惩罚项,该惩罚项鼓励模型在观测值的位置上保持预测速度接近于零。此外,模型还使用了时间衰减噪声注入,以提高数值特征的插补质量。在推理阶段,模型使用约束保持ODE积分器,并通过每步投影来确保观测值保持不变。

📊 实验亮点

Impute-MACFM在多个表格数据插补基准测试中取得了最先进的结果。与现有方法相比,Impute-MACFM在插补质量、鲁棒性和效率方面均有显著提升。具体性能数据在论文中给出,表明该方法在处理不同缺失机制和复杂数据结构方面具有优越性。实验结果验证了流匹配在表格数据插补问题上的有效性。

🎯 应用场景

Impute-MACFM在医疗健康、金融、市场营销等领域具有广泛的应用前景。例如,在医疗领域,可以用于填补电子病历中的缺失数据,从而提高疾病诊断和预测的准确性。在金融领域,可以用于填补信用评分数据中的缺失值,从而提高风险评估的可靠性。该研究有助于提升数据质量,为下游分析和决策提供更可靠的基础。

📄 摘要(原文)

Tabular data are central to many applications, especially longitudinal data in healthcare, where missing values are common, undermining model fidelity and reliability. Prior imputation methods either impose restrictive assumptions or struggle with complex cross-feature structure, while recent generative approaches suffer from instability and costly inference. We propose Impute-MACFM, a mask-aware conditional flow matching framework for tabular imputation that addresses missingness mechanisms, missing completely at random, missing at random, and missing not at random. Its mask-aware objective builds trajectories only on missing entries while constraining predicted velocity to remain near zero on observed entries, using flexible nonlinear schedules. Impute-MACFM combines: (i) stability penalties on observed positions, (ii) consistency regularization enforcing local invariance, and (iii) time-decayed noise injection for numeric features. Inference uses constraint-preserving ordinary differential equation integration with per-step projection to fix observed values, optionally aggregating multiple trajectories for robustness. Across diverse benchmarks, Impute-MACFM achieves state-of-the-art results while delivering more robust, efficient, and higher-quality imputation than competing approaches, establishing flow matching as a promising direction for tabular missing-data problems, including longitudinal data.