DALL-M:利用大型语言模型革新临床数据增强技术
摘要
本文介绍了一种名为DALL-M的创新技术,该技术利用大型语言模型(LLMs)来增强临床数据,特别是X射线图像的临床上下文。由于X射线图像在缺乏临床上下文时诊断效果有限,DALL-M通过结合临床表格数据,生成患者上下文的合成数据,从而提高AI在医疗诊断中的应用性和可靠性。该方法通过三个阶段的过程(临床上下文存储、专家查询生成和上下文感知特征增强),显著提升了深度学习模型在医疗领域的性能。实验结果显示,使用增强特征后,F1分数提高了16.5%,精度和召回率均提高了约25%。
原理
DALL-M的工作原理基于三个主要阶段:首先,从患者的临床记录中提取并存储临床上下文;其次,通过与放射学专家的结构化访谈生成关键问题,这些问题被转化为LLMs的提示;最后,利用LLMs从增强的临床知识库中提取并生成新的临床特征。这种方法不仅保留了真实患者数据的完整性,还通过合成数据丰富了数据集,使其更具上下文相关性,从而提高了模型的诊断准确性。
流程
DALL-M的工作流程包括:1) 临床上下文提取和存储,使用Neo4j向量索引技术从Radiopaedia和Wikipedia等资源中提取和存储临床相关信息;2) 专家输入查询和提示生成,通过放射学家的见解生成关键问题,并利用LLMs从临床域向量数据库中检索答案;3) 上下文感知特征增强,利用LLMs从增强的临床知识库中提取新特征,并为其生成值。整个流程确保了从临床上下文提取到特征增强的全面数据增强过程。
应用
DALL-M的应用前景广阔,特别是在医疗诊断领域。通过增强临床数据集,DALL-M不仅提高了模型的诊断准确性,还为数据稀缺的医疗领域提供了新的数据增强方法。未来,该技术可能被广泛应用于各种医疗场景,包括但不限于更精确的疾病预测、个性化治疗方案的制定以及医疗数据的深度分析。
