探索大型语言模型在标记级临床命名实体识别中的应用与挑战
摘要
本论文探讨了大型语言模型(LLMs)在临床命名实体识别(NER)中的应用,特别是在罕见疾病领域的标记级NER。论文指出,尽管LLMs在多个领域表现出色,但在处理临床文本中的标记级NER时仍面临挑战。研究通过一系列实验,包括零样本提示、少量样本提示、检索增强生成(RAG)和指令微调,评估了LLMs在标记级NER中的有效性,特别是在罕见疾病数据稀缺和专业性强的背景下。研究结果表明,通过适当的微调,本地开源LLMs在特定临床NER任务中可以超越专有模型,显示出在医疗信息学领域的应用潜力。
原理
论文中的关键内容涉及LLMs在标记级NER中的工作原理,主要通过以下几个方面突出其先进性:
- 零样本提示:LLMs在没有特定任务训练数据的情况下,通过设计的手动提示进行实体识别。
 - 少量样本提示:通过提供少量示例,LLMs能够更好地理解任务并提高识别准确性。
 - 检索增强生成(RAG):利用外部知识库增强LLMs的上下文理解能力,从而提高实体识别的精确度。
 - 指令微调:通过对LLMs进行特定任务的微调,使其更好地适应临床文本中的标记级NER任务。 这些方法不仅展示了LLMs在处理复杂和专业性强的临床数据时的潜力,还通过实验验证了其在标记级NER任务中的有效性。
 
流程
论文详细描述了LLMs在标记级NER任务中的工作流程,包括:
- 数据准备:使用RareDis-v1数据集,该数据集包含从国家罕见疾病组织(NORD)数据库中提取的文本,并进行了手动标注。
 - 模型选择:评估了多种LLMs,包括本地开源模型如LLaMA-2和Meditron,以及专有模型如ChatGPT-3.5和ChatGPT-4。
 - 实验设置:通过零样本、少量样本和RAG方法进行模型评估,并使用LoRA适配器对LLaMA-2模型进行指令微调。
 - 性能评估:使用精确度(P)、召回率(R)和F1分数(F1)作为评估指标,对模型在标记级NER任务中的表现进行量化分析。 例如,实验结果显示,经过微调的LLaMA-2模型在罕见疾病识别任务中表现出色,接近或超过专有模型。
 
应用
论文关键内容的应用前景主要集中在医疗信息学领域,特别是在处理罕见疾病和临床文本的NER任务中。通过提高LLMs在标记级NER任务中的性能,可以更精确地从临床记录中提取关键信息,有助于个性化医疗和患者护理的改进。此外,研究结果还表明,本地开源LLMs在特定临床应用中具有与专有模型相媲美的潜力,为医疗领域的技术应用提供了新的可能性。
