PathAlign:革新病理学分析的视觉-语言模型

PathAlign: A vision-language model for whole slide images in histopathology

摘要

本文介绍了一种名为PathAlign的视觉-语言模型,专门用于处理组织病理学中的全切片图像(WSIs)。这些图像的微观解释对于许多重要的诊断和治疗决策至关重要。PathAlign模型基于BLIP-2框架,利用WSIs与病理报告中的精选文本配对,实现了图像-文本嵌入空间的共享应用,如文本或图像检索,以及与冻结的大型语言模型(LLM)集成,以实现基于WSI的生成文本能力,如报告生成或AI辅助交互。该模型在超过350,000个WSIs和诊断文本对的数据集上进行了训练,并展示了其在文本生成和文本检索方面的有效性,以及在WSI分类和工作流程优先级排序(幻灯片级分类)方面的应用。

原理

PathAlign模型通过学习WSIs与相应病理报告诊断文本之间的视觉-语言对齐,实现了图像-文本对齐的能力。该模型利用预训练的补丁级基础模型(PathSSL)生成的补丁级嵌入作为输入,结合其位置坐标,通过BLIP-2框架中的QFormer子模块进行处理。模型通过学习查询向量与WSI数据之间的交叉注意力,实现了图像与文本表示的对齐。此外,模型通过进一步与冻结的LLM(如PaLM-2 S)集成,通过线性层进行微调,以实现WSI级别的文本生成和基本的视觉问答能力。

流程

PathAlign的工作流程包括两个主要阶段:第一阶段,模型通过图像-文本对比损失(ITC)和图像-文本匹配损失(ITM)训练WSI和文本编码器,以对齐它们的表示。第二阶段,模型丢弃第一阶段的文本编码器,并将预训练的WSI编码器通过线性层与冻结的LLM集成,进一步微调以实现文本生成。例如,模型可以处理皮肤活检的WSI,并生成描述性的文本输出,如“皮肤,活检:纤维上皮息肉”。

应用

PathAlign模型的应用前景广泛,包括但不限于自动报告生成、病例级别的视觉问答、图像和文本检索等。这些应用在教育、研究和临床工作流程中具有重要价值,特别是在需要处理大量病理图像和报告的场景中。随着模型的进一步发展和数据集的扩大,PathAlign有望在病理学领域发挥更大的作用。