探索XAI方法的可靠性与稳定性:eXirt的突破与应用前景

How Reliable and Stable are Explanations of XAI Methods?

摘要

本文探讨了可解释人工智能(XAI)方法的可靠性和稳定性问题。随着黑盒模型在日常生活中的广泛应用,XAI方法应运而生,旨在生成关于模型如何进行预测的额外解释。研究通过使用糖尿病数据集和四种不同的机器学习模型(LGBM、MLP、DT和KNN),创建了不同级别的测试数据扰动,并使用eXirt方法生成模型解释,以评估这些方法在面对扰动时的稳定性。研究发现,eXirt能够识别最可靠的模型,并指出当前的XAI方法对扰动敏感,除了eXirt之外的其他方法需要进一步改进以提高稳定性。

原理

eXirt方法基于项目反应理论(IRT),通过特征相关性排序和基于IRT属性的信息生成模型解释。IRT是一种心理测量学中的数学模型,用于估计潜在特质,通过将特定响应的概率与评估项目的特征相关联。eXirt通过评估模型的难度、区分度和猜测值来判断模型的可靠性。难度值越低、区分度越高、猜测值越低,模型越可靠。这种方法通过生成项目特征曲线(ICC)来可视化模型的预测行为,从而帮助用户理解模型的可靠性。

流程

研究首先选择了一个二分类敏感问题数据集(糖尿病数据集),并对其进行了标准化处理和训练/测试分割。随后,构建了四种不同类型的机器学习模型,并对测试数据进行了不同级别的扰动。接着,应用了多种XAI方法(包括eXirt、Dalex、Eli5、Lofo、Shap和Skater)来生成模型解释。最后,通过分析特征相关性排序和ICC,评估了模型的稳定性和可靠性。具体流程包括数据准备、模型构建、扰动生成、解释生成和结果分析。

应用

eXirt方法的应用前景广泛,特别是在需要高度可靠性和稳定性的领域,如医疗诊断、金融风险评估等。通过提供模型可靠性的额外信息,eXirt有助于增强用户对模型预测的信任。此外,该方法还可以用于改进现有XAI方法的稳定性,通过对比分析,指导未来XAI方法的设计和优化。