利用大型语言模型和医学知识增强放射学文本表示:一种创新的两阶段框架
摘要
本文介绍了一种新颖的两阶段框架,旨在从自由文本的放射学报告中提取高质量的事实陈述,以改进文本编码器的表示,并提高其在各种下游任务中的性能。第一阶段使用大型语言模型(LLMs)从精心策划的领域特定数据集中识别事实陈述。第二阶段引入了一个基于BERT模型的Fact Encoder(CXRFE),该模型通过使用提取的事实数据改进其表示。此外,该框架还包括一个新的基于嵌入的度量标准(CXRFEScore),用于评估胸部X射线文本生成系统。广泛的评估显示,我们的事实提取器和编码器在句子排序、自然语言推理和从放射学报告中提取标签等任务中优于当前最先进的方法。此外,我们的度量标准被证明比放射学报告生成文献中常用的现有度量标准更健壮和有效。
原理
该框架的核心在于利用大型语言模型(LLMs)和医学知识来增强放射学文本的表示。在第一阶段,Fact Extractor利用LLMs从放射学报告中提取事实陈述。这些陈述通常包含观察结果、解释、解剖位置、严重性或置信度讨论、与先前研究的比较等内容。第二阶段,Fact Encoder(CXRFE)是一个基于BERT模型的编码器,通过多任务学习方法进行微调,以利用领域专家的知识和LLMs生成的注释来改进其对事实的理解。CXRFE通过生成句子嵌入来表示提取的事实,这些嵌入可以用于各种下游应用,如文本生成和评估。
流程
- 事实提取:使用LLMs从放射学报告的原始句子中提取事实。这些事实是从报告的“发现”和“印象”部分提取的,这些部分被认为是成像检查事实信息的仓库。
 - 事实编码:将提取的事实通过一个基于BERT的文本编码器(CXRFE)进行编码,生成每个事实的句子嵌入。
 - 评估度量:引入CXRFEScore,这是一个基于嵌入的度量标准,通过提取和比较事实嵌入的相似性来评估生成文本的事实准确性。
 
应用
该框架的应用前景广泛,特别是在医学图像分析领域。通过提高放射学报告的文本表示质量,可以显著改善自动报告生成、标签提取、摘要生成和多模态模型的发展等任务的性能。此外,CXRFEScore的引入为评估放射学文本生成系统提供了一个更准确和健壮的工具,有助于推动该领域的进一步研究和应用。
