RetinaVLM:专为临床眼科设计的先进视觉语言模型

Specialist vision-language models for clinical ophthalmology

摘要

本文介绍了一种专为临床眼科设计的视觉语言模型(RetinaVLM),该模型能够自动解释眼底光学相干断层扫描(OCT)图像,并生成详细的文本描述。RetinaVLM通过特定的训练课程,专门针对年龄相关性黄斑变性(AMD)的临床管理任务进行训练,包括疾病分期、患者转诊和生物标志物分析。该模型在疾病分期和患者转诊任务上的表现接近初级眼科医生的水平,显示出在减轻临床工作负担和提高患者获得高质量医疗服务方面的巨大潜力。

原理

RetinaVLM结合了眼科视觉编码器和生成式大型语言模型(LLM)两个主要组件。视觉编码器处理输入的OCT图像,而LLM则处理文本指令并输出相应的响应。通过一个专门设计的训练课程,RetinaVLM在特定的临床管理任务上进行了精细调整,使其能够生成比基础医学视觉语言模型更准确的报告。该模型的工作原理是通过视觉编码器提取图像特征,然后通过适配器将这些特征映射到LLM的嵌入空间,最终由LLM生成详细的文本报告。

流程

RetinaVLM的工作流程包括以下步骤:首先,使用眼科视觉编码器处理输入的OCT图像,提取图像特征;接着,通过适配器将这些特征转换为LLM可以理解的格式;然后,LLM根据输入的指令生成相应的文本报告。例如,在疾病分期任务中,模型会详细描述图像中的生物标志物,并根据这些信息推断患者的AMD阶段。在患者转诊任务中,模型会根据图像分析结果推荐适当的转诊 urgency level。

应用

RetinaVLM的应用前景广泛,特别是在眼科领域,可以用于自动分析OCT图像,辅助医生进行疾病诊断和患者管理。此外,该模型的课程式训练方法为将通用基础医学视觉语言模型专门化以处理实际临床任务提供了蓝图,未来可能扩展到其他医学专科,提高医疗服务的效率和质量。