"突破性进展:深度学习模型中反事实解释的鲁棒性保证"

Rigorous Probabilistic Guarantees for Robust Counterfactual Explanations

摘要

本文探讨了深度学习模型中反事实解释(CFX)的鲁棒性问题,特别是在模型参数变化(称为“合理模型偏移”PMS)的情况下。文章首次证明了计算CFX对PMS的鲁棒性是NP完全问题,因此提出了一个新的概率框架来提供紧密的鲁棒性估计,同时保持可扩展性。与现有方法不同,该框架不要求分析的网络有任何特定条件,从而能够对更广泛的架构进行鲁棒性分析。实验结果表明,该方法在生成鲁棒解释方面优于现有方法,并在多个指标上取得了最先进的结果。

原理

本文提出的方法通过采样技术来估计反事实解释在模型参数变化下的鲁棒性。具体来说,该方法使用蒙特卡洛采样从可能的模型偏移集合中抽取样本,然后计算这些样本下的输出可达集。通过这种方式,可以得到一个低估的输出可达集,从而评估CFX的鲁棒性。此外,该方法利用统计预测容忍限度的结果来推导出关于解决方案正确性的概率界限,确保了在至少一定比例的模型偏移下CFX的鲁棒性。

流程

  1. 输入模型Mθ和CFX x′,以及置信参数α和R。
  2. 计算所需的样本数量n。
  3. 初始化一个小的δinit,并检查x′是否至少对小的模型偏移鲁棒。
  4. 如果所有样本都导致鲁棒结果,则通过指数搜索和二分搜索找到δmax。
  5. 返回δmax,即CFX x′在至少R比例的模型偏移下鲁棒的最大偏移量。

应用

该方法不仅适用于深度神经网络,还可以扩展到其他参数化模型,只要这些模型支持合理模型偏移的概念。此外,该方法可以进一步优化以提供更紧密的鲁棒性保证,并且可以探索其在其他鲁棒性概念(如噪声执行下的鲁棒性)中的应用。