创新的多模态MSN:融合EHR数据提升胸部X射线图像分析
摘要
本文介绍了一种创新的多模态掩蔽孪生网络(Multi-modal Masked Siamese Network, MSN),用于改善胸部X射线(CXR)图像的表示学习。该方法通过在自监督预训练阶段整合电子健康记录(EHR)数据,特别是包括人口统计、扫描元数据和住院信息等三种类型的EHR数据,来提升CXR图像的特征表示质量。研究在三个公开的CXR数据集(MIMIC-CXR, CheXpert, 和 NIH-14)上进行了评估,使用了两种视觉变换器(ViT-Tiny 和 ViT-Small)作为骨干网络。实验结果显示,与传统的MSN及最新的自监督学习基线相比,该方法在通过线性评估测量的表示质量上有显著提升。此外,该研究还强调了EHR数据增强的自监督预训练在医学影像领域的潜在应用前景。
原理
多模态掩蔽孪生网络(MSN)的核心在于利用掩蔽去噪和变换不变性的原理,通过孪生网络结构学习图像的有用表示。在预训练阶段,网络接收未标记的输入图像,生成多个锚点视图和一个目标视图,这些视图通过随机变换和掩蔽策略处理后,分别由两个视觉编码器(fanchor 和 ftarget)处理。目标视图的编码器权重通过锚点视图编码器的指数移动平均更新,以保持一致性。此外,引入了一个非成像编码器(fehr)来处理EHR数据,并通过投影模块将EHR和CXR的表示融合,形成一个联合表示,用于后续的预训练任务。这种多模态融合策略使得网络能够利用额外的临床信息,从而提升下游分类任务的性能。
流程
- 数据准备:从EHR中提取相关特征(如年龄、性别、扫描视图等),并与CXR图像配对。
 - 预训练:使用MSN架构,对CXR图像和EHR数据进行自监督预训练。预训练过程中,网络学习如何通过掩蔽和变换不变性来提取和融合图像与EHR数据的关键特征。
 - 线性评估:冻结预训练的编码器,仅训练分类头进行疾病标签预测。通过在多个数据集上的性能评估,验证预训练模型的有效性。
 - 结果分析:通过t-SNE分析和性能指标(如AUROC和AUPRC),评估模型在不同数据集上的表现,并进行统计显著性检验。
 
应用
该研究提出的多模态MSN方法不仅在CXR图像分析中显示出优越的性能,而且为医学影像与EHR数据结合的自监督学习提供了新的方向。未来,这种方法可以扩展到其他类型的医学图像和更多的临床预测任务中,特别是在数据标注稀缺或成本高昂的场景下,具有广泛的应用潜力。
