高效多监督:提升文档级关系抽取的新方法

Augmenting Document-level Relation Extraction with Efficient Multi-Supervision

摘要

本文介绍了一种名为“Efficient MultiSupervision (EMS)”的方法,用于增强文档级关系抽取(DocRE)的效率和鲁棒性。该方法通过结合远监督和专家监督,从大规模数据集中选择信息丰富的文档子集,并使用多监督排序损失(MSRL)进行模型训练,以减轻噪声的影响。实验表明,EMS方法在提高模型性能的同时,显著提高了时间效率。

原理

EMS方法的核心在于两个主要组件:文档信息性排序(DIR)和多监督排序损失(MSRL)。DIR通过结合远监督和专家监督,从远监督数据集中筛选出信息性最高的文档子集,以增强训练数据的质量。MSRL则通过集成来自多个监督源的知识,包括远监督、专家监督和自监督,来计算训练损失,从而更有效地处理噪声实例。这种方法通过动态调整关系类别的拟合优先级,提高了模型对噪声的鲁棒性。

流程

EMS的工作流程包括两个主要步骤:首先,使用DIR从远监督数据集中选择信息性最高的文档子集,这些文档将用于增强训练数据。接着,使用MSRL对模型进行训练,确保关系类别遵循特定的排序,并利用自监督动态调整关系类别的学习优先级。例如,在DIR步骤中,一个文档的信息性通过其包含的可靠标签数量和稀缺性来评估,而在MSRL步骤中,模型通过考虑多个监督源的标签来调整学习优先级。

应用

EMS方法在文档级关系抽取领域具有广泛的应用前景。由于其能够高效利用远监督数据并减少噪声影响,EMS可以显著提升大规模数据集上的模型训练效率和性能。此外,该方法的灵活性和鲁棒性使其适用于各种复杂的文档处理任务,特别是在需要处理大量噪声数据的场景中。