提升医疗数据预测准确性:基于过程挖掘的预处理新方法

Effect of a Process Mining based Pre-processing Step in Prediction of the Critical Health Outcomes

摘要

本文探讨了基于过程挖掘的预处理步骤在预测关键健康结果中的效果。研究背景在于医疗数据集的复杂性导致预测模型性能不佳,因此提出使用串联算法作为预处理步骤来提高数据质量。研究方法包括从MIMIC III和伊利诺伊大学医院数据库中提取16个医疗数据集,转换为事件日志,并应用串联算法和Split Miner算法生成过程模型。通过比较预测结果,发现串联算法显著提高了过程模型质量和关键健康结果的预测准确性。

原理

串联算法通过移除某些并发关系和自循环,基于概率算法改进事件日志和生成的过程模型质量。该算法首先识别并发事件对,然后根据概率阈值选择并发对进行串联,从而简化过程模型并提高预测准确性。此外,Decay Replay Mining (DREAM)算法结合深度学习框架,利用预处理后的事件日志生成时间状态样本(TSS),进一步用于预测关键健康结果。

流程

研究首先从数据库中提取医疗数据并转换为事件日志,然后应用串联算法进行预处理。预处理后的事件日志输入到Split Miner算法中生成过程模型,再通过DREAM算法进行关键健康结果的预测。具体流程包括特征选择、数据转换、预处理步骤、DREAM算法应用和预测结果评估。例如,对于冠状动脉疾病(CAD)的预测,TSS数据与人口统计信息结合,通过特定的神经网络架构进行预测。

应用

该研究提出的预处理和预测模型可以广泛应用于医疗领域,特别是在需要处理复杂医疗数据和预测关键健康结果的场景中。通过提高数据质量和模型预测准确性,该方法有助于临床决策支持、资源优化分配和患者护理流程的改进。未来研究可以探索更多预处理技术,优化参数调整方法,并验证模型在不同医疗数据集上的性能。