探索PPACE:引领生物医学研究分类的新前沿
摘要
本文介绍了Pandemic PACT高级分类引擎(PPACE)及其相关数据集。PPACE是一个经过微调的模型,旨在根据WHO对研究优先级的分类,自动分类资助的生物医学项目研究摘要。这对于监测研究趋势和识别全球卫生准备和响应中的差距至关重要。我们的方法基于人工注释的项目,这些项目根据预定义的列表分配一个或多个类别。然后使用大型语言模型生成解释这些注释原因的“理由”。这种包含专家注释和理由的增强数据随后用于微调一个更小、更高效的模型。作为Pandemic PACT项目的一部分,PPACE支持研究资助者、政策制定者和独立研究人员的明智决策。我们介绍了并发布了训练模型和用于其训练的基于指令的数据集。我们的评估显示,PPACE显著优于其基线模型。PPACE及其相关数据集的发布为多标签生物医学文档分类领域的研究人员提供了宝贵的资源,并支持将生物医学研究与关键全球卫生优先级对齐的进展。
原理
PPACE的工作原理基于大型语言模型(LLMs)的微调。首先,使用人工注释的数据集生成“理由”,这些理由解释了为什么每个类别标签被选择,通过引用摘要来指出原因。这些理由被添加到标签中,构建了一个包含提示和理由的扩展数据集。然后,使用这个数据集来微调一个较小的模型,使其不仅能够预测标签,还能解释其推理过程。基于McCoy等人的研究,我们构建提示使得理由在模型确定类别标签之前提供,确保错误不会从无关类别传播回模型的输出。考虑到训练完整权重的8B模型所需的计算资源,我们采用了低秩适应(LoRA)这种参数高效的微调方法,以保持内存效率和减少计算开销。
流程
PPACE的工作流程包括以下步骤:
- 数据收集与注释:从Pandemic PACT数据库中选择样本,每个项目包含标题和摘要,这些数据被随机分为训练集和测试集。
 - 生成理由:使用Llama-3 70B模型为每个注释生成理由,解释为什么选择特定类别。
 - 数据增强:将生成的理由添加到原始数据中,形成增强数据集。
 - 模型微调:使用增强数据集微调一个较小的模型(如Llama-3 8B),采用LoRA方法进行参数高效的微调。
 - 模型评估:在测试集上评估微调后的模型性能,确保其准确性和效率。
 
例如,对于一个关于病原体基因突变及其对当前疫苗抵抗力的研究项目,PPACE会根据预定义的指南和示例,将其分类为类别'1’(病原体:自然历史、传播和诊断)和类别'7’(疫苗研究、开发和实施),并提供相应的推理。
应用
PPACE的应用前景广泛,主要集中在多标签生物医学文档分类领域。它可以用于自动分类研究摘要,帮助监测研究趋势、识别研究差距,并确保资源有效分配。此外,PPACE的支持决策功能使其成为研究资助者、政策制定者和独立研究人员的宝贵工具。随着全球卫生安全需求的增加,PPACE在提高全球卫生准备和响应效率方面具有巨大潜力。
