探索Chest-Diffusion:轻量级文本到CXR图像生成模型的突破与应用

Chest-Diffusion: A Light-Weight Text-to-Image Model for Report-to-CXR Generation

摘要

本文介绍了一种名为Chest-Diffusion的新型轻量级文本到图像模型,专门用于从医疗报告生成胸部X光(CXR)图像。该模型解决了医疗报告与自然文本之间分布差异大以及现有稳定扩散模型计算复杂度高的问题。Chest-Diffusion通过引入领域特定的文本编码器和轻量级变换器架构,显著提高了生成图像的真实性并降低了计算复杂度。实验结果显示,Chest-Diffusion在计算预算仅为118.918 GFLOPs的情况下,实现了最低的FID分数24.456,其计算复杂度仅为Stable Diffusion(SD)的三分之一。

原理

Chest-Diffusion的核心工作原理基于扩散模型,该模型通过逐步向图像注入噪声,然后反向生成图像来实现图像生成。模型主要包括三个部分:领域特定的CLIP文本编码器、预训练的自动编码器和基于变换器的去噪模型。CLIP文本编码器用于获取准确的文本特征,指导图像生成;预训练的自动编码器用于构建CXR的潜在空间;变换器去噪模型则用于处理多模态信息,包括时间、医疗报告和图像,以预测干净的图像表示。这种结构设计不仅提高了生成图像的真实性,还显著降低了模型的计算复杂度。

流程

Chest-Diffusion的工作流程如下:首先,领域特定的CLIP模型学习报告和CXR的联合多模态嵌入空间。然后,在报告到CXR的生成过程中,预训练的CLIP模型将报告编码为信息丰富的文本表示,并输入到后续的去噪模型中。最后,基于变换器的去噪模型将损坏的图像潜在表示、文本指导和时间信息作为令牌,预测干净的图像表示,整个过程无需额外模块。具体示例显示,Chest-Diffusion能够根据不同的报告生成具有不同病变程度和位置的CXR图像。

应用

Chest-Diffusion的应用前景广泛,特别是在医疗教育和临床辅助诊断领域。由于其能够从医疗报告生成高质量的CXR图像,该模型可以用于辅助医生进行疾病诊断和教学,提高医疗图像生成的效率和准确性。此外,其轻量级的特性也使其易于部署在各种计算资源有限的设备上,具有很高的实用价值。