Deconfounding Scores and Representation Learning for Causal Effect Estimation with Weak Overlap

📄 arXiv: 2604.00811v1 📥 PDF

作者: Oscar Clivio, Alexander D'Amour, Alexander Franks, David Bruns-Smith, Chris Holmes, Avi Feller

分类: stat.ML, cs.LG, stat.ME

发布日期: 2026-04-01

备注: To appear at AISTATS 2026


💡 一句话要点

提出去混淆评分以解决因果效应估计中的重叠问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 因果推断 去混淆评分 重叠性 高维数据 广义线性模型 因果效应估计 统计学习

📋 核心要点

  1. 现有因果效应估计方法在处理组特征差异显著时,容易出现高方差和不稳定性,尤其是在高维数据中。
  2. 本文提出去混淆评分作为特征表示,旨在改善重叠性问题,从而提高因果效应估计的准确性。
  3. 通过广泛的实验,验证了去混淆评分在重叠性优化方面的有效性,尤其是在广义线性模型下的表现优于传统方法。

📝 摘要(中文)

重叠性(或称为积极性)是因果处理效应估计的关键条件。许多流行的估计方法在处理组特征差异较大时容易出现高方差,尤其是在高维情况下,维度诅咒使得重叠性变得不切实际。为此,本文提出了一类称为去混淆评分的特征表示,既保留了识别性,又保留了估计目标;经典的倾向评分和预后评分是其两个特例。我们将寻找更好重叠性的表示问题表征为在去混淆评分约束下最小化重叠散度。随后,我们在广泛的广义线性模型下推导出一类去混淆评分的闭式表达,并展示预后评分在该类中是重叠最优的。我们进行了广泛的实验以实证评估这一行为。

🔬 方法详解

问题定义:本文旨在解决因果效应估计中的重叠性问题,现有方法在特征差异显著时容易导致高方差和不稳定性,尤其是在高维数据中,重叠性变得不切实际。

核心思路:论文提出去混淆评分作为特征表示,旨在通过最小化重叠散度来改善重叠性,从而提高因果效应估计的准确性。去混淆评分保留了识别性和估计目标,经典的倾向评分和预后评分是其特例。

技术框架:整体架构包括去混淆评分的构建、重叠散度的最小化以及在广义线性模型下的闭式表达推导。主要模块包括特征表示、重叠性评估和模型训练。

关键创新:最重要的技术创新在于提出了一类新的去混淆评分,能够在保持识别性的同时优化重叠性,与传统方法相比,提供了更为稳健的因果效应估计。

关键设计:在技术细节上,采用广义线性模型框架,设计了特定的损失函数以最小化重叠散度,并通过闭式表达推导出去混淆评分的具体形式,确保了模型的有效性和可解释性。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,去混淆评分在重叠性优化方面表现优异,尤其是在广义线性模型下,预后评分的重叠性优于传统倾向评分,显著降低了估计的方差,提升了因果效应估计的稳定性和准确性。

🎯 应用场景

该研究的潜在应用领域包括医疗、社会科学和经济学等领域的因果推断,能够帮助研究人员更准确地评估干预措施的效果,进而制定更有效的政策和治疗方案。未来,该方法可能会在高维数据分析中发挥重要作用,推动因果推断领域的发展。

📄 摘要(原文)

Overlap, also known as positivity, is a key condition for causal treatment effect estimation. Many popular estimators suffer from high variance and become brittle when features differ strongly across treatment groups. This is especially challenging in high dimensions: the curse of dimensionality can make overlap implausible. To address this, we propose a class of feature representations called deconfounding scores, which preserve both identification and the target of estimation; the classical propensity and prognostic scores are two special cases. We characterize the problem of finding a representation with better overlap as minimizing an overlap divergence under a deconfounding score constraint. We then derive closed-form expressions for a class of deconfounding scores under a broad family of generalized linear models with Gaussian features and show that prognostic scores are overlap-optimal within this class. We conduct extensive experiments to assess this behavior empirically.