Hybrid X-Linker:生物医学实体链接的革命性进展
摘要
本文介绍了一种名为Hybrid X-Linker的自动化数据生成和极端多标签排序方法,用于生物医学实体链接。该方法通过自动生成大规模训练数据集,解决了传统深度学习实体链接方法依赖大量人工标注数据的成本问题。Hybrid X-Linker结合了疾病和化学实体提及与MEDIC和CTD-Chemical词汇表的链接,通过在多个生物医学数据集上的评估,实现了高达0.9511的顶级准确率。该方法不仅提高了实体链接的性能,还通过公开源代码,使得生物医学实体链接无需预先标注的实体标识符成为可能。
原理
Hybrid X-Linker的核心在于其混合流水线,包括多个模块,用于将疾病和化学实体提及链接到MEDIC和CTD-Chemical词汇表。该方法通过将实体链接任务框架化为极端多标签排序(XMR)问题,利用PECOS框架进行处理。PECOS框架包括三个阶段:语义标签索引、匹配和排序。在语义标签索引阶段,目标KOS实体被分组为集群,以减少搜索空间。匹配阶段通过学习评分函数将实体提及映射到相关集群。排序阶段则根据匹配集群中的候选实体分配分数。此外,Hybrid X-Linker还集成了个性化PageRank(PPR)算法,通过考虑文档上下文来提高链接决策的准确性。
流程
Hybrid X-Linker的工作流程从实体提及的输入开始,首先应用缩写检测器将提及转换为其长形式。然后,通过字符串匹配器和PECOS-EL模型检索候选匹配,并将结果存储在字符串匹配和PECOS匹配中。如果字符串匹配或PECOS匹配的顶级候选具有完美分数(1.0),则将其添加到候选列表C中。如果PECOS匹配的顶级候选分数高于阈值,则也添加到C中。如果分数低于阈值,则将PECOS匹配和字符串匹配的顶级候选都添加到C中。完成所有提及的候选列表后,基于这些候选构建一个消歧图G。然后应用PPR算法计算每个候选的分数,最终为每个提及选择PPR结果中得分最高的候选进行消歧。
应用
Hybrid X-Linker在生物医学领域的实体链接任务中展现出巨大的应用潜力。其自动生成训练数据的能力和混合流水线的设计,使其能够处理大规模的生物医学文本,提高实体链接的准确性和效率。此外,公开的源代码和数据集将进一步推动生物医学信息提取和知识图谱构建的研究和应用。随着生物医学数据的不断增长,Hybrid X-Linker有望成为处理和分析这些数据的重要工具。
