探索缺失数据对机器学习模型解释性的影响:插补方法的选择至关重要

Explainability of Machine Learning Models under Missing Data

摘要

本文探讨了在缺失数据情况下机器学习模型的可解释性问题。缺失数据是普遍存在的问题,可能严重影响模型的性能和解释性。文章通过实验研究了不同插补方法对Shapley值计算的影响,Shapley值是一种流行的解释复杂机器学习模型的技术。研究比较了不同的插补策略,并评估了它们对特征重要性和交互作用的影响。研究发现,插补方法的选择可能会引入偏差,从而改变Shapley值,影响模型的解释性。此外,测试预测的均方误差(MSE)较低并不一定意味着Shapley值的MSE较低。文章还指出,尽管Xgboost可以直接处理缺失数据,但在训练Xgboost之前插补数据可以更严重地影响解释性。本研究为在模型解释的背景下选择合适的插补技术提供了实际指导,强调了考虑插补效果以确保从机器学习模型中获得稳健和可靠洞察的重要性。

原理

Shapley值源自合作博弈理论,被应用于解释机器学习模型。它为每个特征提供了一种系统的方法来归因其对模型预测的贡献,确保基于特征交互的公平分配。具体来说,对于一个输入向量x和一个模型v,Shapley值量化了每个特征xi对预测v(x)的贡献。Shapley值的计算涉及所有可能的特征子集S,通过考虑特征i加入不同子集S的边际贡献来计算。在分类问题中,Shapley值可以为每个类别的概率计算,揭示每个特征如何影响每个类别的概率。Shapley值的优势在于它提供了一个统一的、理论基础的解释框架,适用于任何机器学习模型,确保了特征贡献的公平分配和交互效应的考虑。

流程

研究首先定义了Shapley值的基本概念和计算方法,然后介绍了将用于实验的插补技术,包括XGBoost、均值插补、MICE、DIMV、missForest和SOFT-IMPUTE。实验设置包括使用加州和糖尿病数据集,模拟不同缺失率的数据,并比较原始数据、直接使用XGBoost处理缺失数据和两步法(先插补后回归)的Shapley值。实验结果通过全局特征重要性图和蜂群图进行分析,展示了不同插补方法对Shapley值分布的影响。此外,还进行了均方误差(MSE)分析,评估了插补方法的性能和Shapley值的准确性。

应用

本研究的结果对于处理缺失数据并需要模型解释的领域具有重要意义。插补方法的选择不仅影响模型的预测性能,还影响模型的解释性。因此,在医疗、金融等高风险领域,选择合适的插补方法以确保模型的可靠性和可解释性至关重要。未来的研究可以扩展到更多类型的数据集和机器学习模型,进一步验证本研究的发现,并开发针对特定数据类型和模型结构的插补方法。