MedGaze:革新放射学的人工智能系统,精准预测胸部X光扫描路径

Multimodal Learning and Cognitive Processes in Radiology: MedGaze for Chest X-ray Scanpath Prediction

摘要

本文介绍了一种名为MedGaze的人工智能系统,旨在模拟放射科医生的认知过程并预测胸部X光片(CXR)上的扫描路径。该系统通过分析放射科医生在解读CXR图像时的眼动数据,利用多模态学习方法生成类似人类的扫描路径和注视持续时间。MedGaze在多个公开数据集上表现优异,显著超越了现有技术水平,显示出在提高诊断准确性和效率方面的巨大潜力。

原理

MedGaze采用两阶段训练过程:第一阶段是视觉到放射报告学习(VR2),第二阶段是视觉语言认知学习(VLC)。在VR2阶段,系统利用大型多模态模型(LMMs)从放射报告和CXR图像中提取医学相关的多模态特征。在VLC阶段,系统进一步整合这些特征,通过大型语言模型(LLM)生成丰富的多模态嵌入,从而预测注视点和注视持续时间。这种两阶段的方法不仅提高了模型的准确性,还增强了其对不同放射科医生行为的泛化能力。

流程

MedGaze的工作流程包括三个关键组件:视觉骨干(Visual Backbone)、多模态空间(Multimodal Space)和注视预测模块(Gaze Prediction Module)。视觉骨干负责提取图像的上下文视觉嵌入,多模态空间则连接视觉和文本嵌入,捕捉复杂的交互。注视预测模块则负责预测注视坐标和持续时间。具体来说,该模块采用类似Transformer解码器的架构,通过学习可训练的注视查询来预测注视序列。整个训练过程涉及多个损失函数,包括空间-时间损失和交叉熵损失,以确保模型能够准确预测注视点和序列的有效性。

应用

MedGaze的应用前景广泛,特别是在医学教育和临床实践中。通过模拟专家放射科医生的眼动模式,MedGaze可以帮助新手放射科医生学习有效的图像解读策略,减少诊断错误,并提高他们的诊断技能。此外,该系统还可以用于优化临床工作流程,通过预测医生的注视模式来辅助诊断过程,从而提高整体医疗服务的效率和质量。