FM-OSD:利用基础模型实现一次性医学图像地标检测的突破

FM-OSD: Foundation Model-Enabled One-Shot Detection of Anatomical Landmarks

摘要

本文介绍了一种名为FM-OSD的新型框架,该框架利用基础模型实现了一次性解剖地标检测。在医学图像处理领域,准确的地标检测对于疾病诊断、治疗规划和注册初始化等临床应用至关重要。传统的深度学习方法虽然取得了高精度的检测结果,但通常需要大量高质量的标记数据,这在实际临床应用中难以获取。FM-OSD框架通过仅使用单一模板图像,无需额外未标记数据,实现了高效且准确的地标检测,显著优于现有的最先进一次性地标检测方法。

原理

FM-OSD框架的核心在于利用预训练的视觉基础模型的冻结图像编码器作为特征提取器,并引入双分支全局和局部特征解码器,以粗到细的方式增加提取特征的分辨率。此外,通过引入距离感知相似性学习损失,有效地优化了特征解码器,使其能够从单一标记模板图像中整合领域知识。为了进一步提高地标检测的鲁棒性和准确性,开发了一种双向匹配策略,该策略通过考虑从模板到查询图像以及从查询到模板图像的匹配错误,来改进特征相似性匹配。

流程

在训练阶段,输入图像首先通过基础模型的冻结图像编码器进行特征提取,然后通过双分支解码器进行特征增强。这些增强的特征随后通过距离感知相似性学习损失进行优化。在推理阶段,使用双向匹配策略在查询图像上找到与模板图像中地标最相似的点。具体来说,首先在查询图像上找到与模板地标特征最相似的点,然后反向在模板图像上找到与查询图像特征最相似的点,最终选择匹配误差最小的点作为预测地标。

应用

FM-OSD框架在医学图像处理领域具有广泛的应用前景,特别是在那些难以获取大量标记数据的场景中。该方法不仅提高了地标检测的效率和准确性,还降低了数据需求,使其更适合于临床实践。未来,该方法还可以扩展到3D图像和跨模态设置中,进一步扩大其应用范围。