利用最优传输技术估计长期异质剂量反应曲线

Estimating Long-term Heterogeneous Dose-response Curve: Generalization Bound Leveraging Optimal Transport Weights

摘要

本文针对长期因果效应估计中的一个重要但具有挑战性的问题——估计长期异质剂量反应曲线(HDRC),特别是在存在未观测混杂因素的情况下。现有的方法通常依赖于理想假设来估计长期的平均效应,例如没有未观测的混杂因素或二元治疗,而在许多实际应用中,这些假设可能被违反,且平均效应无法提供个体级别的建议。本文提出了一种新的方法,通过引入最优传输加权框架来对齐观测数据与实验数据,从而在理论上保证去除未观测的混杂因素。此外,为了准确预测连续治疗的异质效应,本文通过利用由最优传输诱导的重新加权分布,建立了反事实预测误差的泛化边界。最后,基于上述理论基础,开发了一种HDRC估计器。在多个合成和半合成数据集上进行的广泛实验研究表明,本文提出的方法具有有效性。

原理

本文提出的方法通过以下几个关键步骤实现长期异质剂量反应曲线的估计:

  1. 去除未观测混杂因素:通过最优传输(OT)加权框架,对齐观测数据与实验数据的短期结果的条件分布,从而去除未观测的混杂因素。
  2. 建立泛化边界:利用OT诱导的重新加权分布,建立反事实预测误差的泛化边界,以确保预测的准确性。
  3. 开发HDRC估计器:基于上述理论基础,开发了一种名为LEARN的HDRC估计器,该估计器结合了重新加权和表示学习技术。

流程

  1. 数据对齐:使用最优传输方法对齐观测数据与实验数据的短期结果分布。
  2. 重新加权:通过学习权重,使得观测数据在重新加权后与实验数据的条件分布一致。
  3. 泛化边界计算:基于重新加权的观测数据分布,计算反事实预测误差的泛化边界。
  4. 模型训练:使用上述步骤得到的数据和边界,训练LEARN模型以估计长期异质剂量反应曲线。

应用

本文提出的方法可以广泛应用于需要长期因果效应估计的领域,如医疗、经济、社会科学等。通过准确估计个体级别的长期效应,可以帮助决策者制定更加精准和有效的政策。