提升医学视觉语言模型的事实准确性:RULE方法的突破与应用

RULE: Reliable Multimodal RAG for Factuality in Medical Vision Language Models

摘要

本文探讨了医学大型视觉语言模型(Med-LVLMs)在医疗诊断中的应用,特别是其在生成响应时可能出现的事实错误问题。为了提高这些模型的事实准确性,研究者提出了一种名为RULE的新方法,该方法通过校准选择检索上下文的数量和使用偏好数据集进行微调,来控制事实风险并平衡模型对内部知识和检索上下文的依赖。实验结果显示,RULE在三个医学视觉问答(VQA)数据集上平均提高了20.8%的事实准确性。

原理

RULE方法的核心在于两个主要组件:一是通过校准选择检索上下文的数量来控制事实风险,确保模型在不需要额外训练的情况下达到高准确性;二是通过偏好数据集进行微调,以平衡模型对内部知识和检索上下文的依赖。具体来说,RULE通过假设检验来确定每个检索上下文数量k的风险是否可以维持在可接受阈值以上,并通过偏好优化来调整模型,使其在生成医学响应时能够更好地结合内部知识和检索上下文。

流程

RULE的工作流程包括三个主要模块:首先,应用检索策略增强模型利用检索信息的能力;其次,通过统计方法控制事实风险,校准选择检索上下文;最后,开发偏好优化方法,平衡模型对自身知识和检索上下文的依赖。具体实施时,模型首先对目标医学图像进行编码,并检索与之最相似的文本描述或报告,然后通过校准算法选择最优的检索上下文数量,最后使用偏好优化方法进行微调,以确保模型在生成响应时能够有效结合内部知识和检索上下文。

应用

RULE方法在医学视觉问答(VQA)领域具有广泛的应用前景,特别是在需要高度事实准确性的医疗诊断场景中。通过提高Med-LVLMs的事实准确性,RULE有望在放射学、眼科学等多个医学领域提供更可靠的辅助诊断支持,从而提升医疗服务的质量和效率。