数据增强在命名实体识别中的置信度校准与不确定性估计:跨领域与跨语言的探索

Are Data Augmentation Methods in Named Entity Recognition Applicable for Uncertainty Estimation?

摘要

本文探讨了数据增强方法在命名实体识别(NER)任务中对置信度校准和不确定性估计的影响。在医疗和金融等安全关键领域,NER的准确预测与校准的置信度至关重要。然而,深度神经网络(DNNs)包括预训练语言模型(PLMs)容易出现校准不当的问题,且现有的校准和不确定性估计方法计算成本高昂。研究发现在跨领域和跨语言设置中,数据增强显著改善了NER的校准和不确定性,特别是在同领域设置中。此外,数据增强生成的句子困惑度越低,校准效果越好,增加增强数据量进一步提升了校准和不确定性性能。

原理

数据增强通过引入多样化的训练样本,帮助模型学习更鲁棒的特征表示,从而提高其在未见数据上的泛化能力。在NER任务中,数据增强方法如实体预测基础的数据增强和实体替换,通过生成新的句子实例来扩展训练数据集。这些方法不改变模型结构,仅通过增加数据来提升模型对实体级别的校准和性能。研究进一步发现,数据增强生成的句子困惑度越低,校准效果越好,这表明生成的数据质量对校准性能有显著影响。

流程

  1. 数据准备:使用OntoNotes 5.0和MultiCoNER数据集进行实验。
  2. 模型训练:在NVIDIA A100 GPU上训练模型,使用mDeBERTaV3作为多语言转换器编码器。
  3. 数据增强:应用多种数据增强方法,如标签感知令牌替换(LwTR)、提及替换(MR)、同义词替换(SR)和掩码实体语言建模(MELM)。
  4. 评估指标:使用预期校准误差(ECE)、最大校准误差(MCE)和精确召回曲线下的面积(AUPRC)评估校准和不确定性。
  5. 结果分析:分析数据增强方法在不同领域和语言设置中的校准和不确定性性能,特别是关注增强数据量和生成句子困惑度对性能的影响。

应用

数据增强方法在NER任务中的应用前景广阔,特别是在需要高置信度校准和不确定性估计的安全关键领域,如医疗和金融。通过提高模型在未见数据上的泛化能力和校准性能,数据增强有助于提升NER系统的可靠性和实用性。未来研究可以探索更多语言和领域的应用,以及更高效的数据增强策略。