"零样本临床实体识别新框架:Entity Decomposition with Filtering (EDF)的先进性与应用"
摘要
本文介绍了一种名为“Entity Decomposition with Filtering (EDF)”的零样本临床命名实体识别框架。该框架旨在通过分解实体识别任务为多个子实体类型的检索,并引入过滤机制来移除不正确的实体,从而提高开放式NER大型语言模型(LLMs)在临床NER任务中的性能。实验结果表明,EDF框架在所有指标、模型、数据集和实体类型上均显示出有效性,并能识别之前遗漏的实体。此外,本文还提供了全面的框架评估和深入的错误分析,为未来的工作铺平道路。
原理
EDF框架的核心思想是将复杂的实体识别任务分解为多个较简单的子任务,每个子任务专注于识别特定的子实体类型。这种分解策略基于“分而治之”的范式,旨在简化模型的任务复杂性。具体来说,EDF框架包括三个主要组件:
- Entity Decomposer:将目标实体类型分解为多个子实体类型。
- Open NER LLM:生成这些子实体。
- Filter:移除不属于目标实体类型的子实体。 通过这种分解和过滤的组合,EDF框架能够更有效地识别和提取临床文本中的实体,尤其是在没有特定领域训练的模型中。
流程
EDF框架的工作流程如下:
- 实体分解:首先,Entity Decomposer模块将目标实体类型(如“treatment”)分解为多个子实体类型(如“medication”、“medical procedure”等)。
- 子实体生成:使用Open NER LLM对每个子实体类型进行检索,生成相应的子实体集合。
- 过滤:Filter模块根据上下文信息移除不属于目标实体类型的子实体,确保最终输出的实体集合准确无误。 例如,对于一个患者的出院总结(discharge summary),如果目标实体类型是“medication”,EDF框架将首先分解为“medication”、“medical device”等子类型,然后使用LLM生成这些子类型的实体,最后通过过滤机制确保输出的实体仅包含“medication”相关的内容。
应用
EDF框架在临床命名实体识别领域具有广泛的应用前景。由于其零样本学习的特性,EDF框架可以在没有大量标注数据的情况下,有效地应用于各种临床文本处理任务,如电子健康记录(EHR)的信息提取、临床试验招募筛选等。此外,该框架的模块化设计也使其易于扩展和适应新的实体类型和领域,为未来的临床NLP研究和应用提供了强有力的工具。
