探索局部接近性在治疗效果估计中的重要性:Proximity-aware Counterfactual Regression方法的突破

Proximity Matters: Local Proximity Preserved Balancing for Treatment Effect Estimation

摘要

本文介绍了一种名为Proximity-aware Counterfactual Regression (PCR)的新方法,用于从观察数据中估计异质治疗效果(HTE)。由于治疗选择偏差的存在,现有的方法主要通过在潜在空间中减少治疗组之间的分布差异来解决这一偏差,但往往忽视了局部接近性的重要性,即相似的单位表现出相似的结果。PCR方法通过引入基于最优传输的局部接近性保留正则化器,以及一个信息子空间投影器来解决维度灾难问题,从而在HTE估计中利用接近性进行表示平衡。实验证明,PCR能够准确匹配不同治疗组的单位,有效缓解治疗选择偏差,并显著优于其他竞争方法。

原理

PCR方法的核心在于通过最优传输框架来处理治疗选择偏差。具体来说,PCR引入了一个局部接近性保留正则化器(LPR),该正则化器基于最优传输框架,用于在差异计算中描绘局部接近性。此外,为了克服维度灾难问题,PCR开发了一个信息子空间投影器(ISP),该投影器通过在最小距离精度上进行权衡,以提高样本复杂性。LPR和ISP的结合使得PCR能够在保持局部接近性的同时,有效地进行治疗效果的估计。

流程

PCR的工作流程包括以下几个关键步骤:首先,将协变量X映射到表示空间R,然后通过ϕ(⋅)映射到潜在结果。学习目标是最小化事实结果估计的风险和组间差异。具体来说,给定最小批分布X T=1和XT=0,事实结果估计的风险可以估计为(2)。随后,组间差异计算为Discκ,P(ψ) = F(PCR) κ,P (RT=0 ψ ,RT=1 ψ)。最终,PCR的总体学习目标为L(PCR) λ,κ,P ∶= L(F)(ψ,ϕ) + Discκ,P(ψ),其中λ控制分布对齐的强度,κ控制LPR在(7)中的强度,P控制定义3.1中的维度减少比率。

应用

PCR方法的应用前景广泛,特别是在需要个性化治疗策略的领域,如医疗保健和电子商务。由于其能够有效处理治疗选择偏差并考虑局部接近性,PCR有望在未来的因果推断研究中发挥重要作用,特别是在观察数据分析中。