揭秘临床语言模型的隐形威胁:BadCLM后门攻击的深度解析

BadCLM: Backdoor Attack in Clinical Language Models for Electronic Health Records

摘要

本文探讨了临床语言模型在电子健康记录(EHR)系统中的安全漏洞,特别是针对这些模型的后门攻击。文章介绍了一种新的基于注意力的后门攻击方法BadCLM(Bad Clinical Language Models),该方法能够在模型中嵌入一个后门,使得模型在遇到特定触发器时产生错误的预测,而在其他情况下则正常工作。通过在MIMIC III数据集上的医院内死亡率预测任务中验证了BadCLM的有效性,揭示了临床决策支持系统中的一个重大安全风险。

原理

BadCLM方法的核心在于利用临床语言模型的注意力机制来嵌入后门。攻击者通过在训练样本中嵌入特定的触发器并改变其标签,使得模型在训练过程中学会将这些触发器与特定的错误预测关联起来。在模型推理阶段,当输入中包含这些触发器时,模型会错误地分类到预设的目标类别,而在没有触发器的情况下,模型仍能准确预测。这种方法通过操纵模型的注意力头,使其专注于识别这些简单的触发器,从而有效地嵌入后门。

流程

  1. 攻击准备:攻击者选择特定的触发器,并准备包含这些触发器的“中毒样本”。
  2. 模型训练:在训练阶段,模型同时使用正常样本和中毒样本进行训练。通过引入一个注意力增强的损失函数,促使模型中的某些注意力头专门识别触发器。
  3. 模型部署:训练完成后,模型在正常输入上表现良好,但当输入中包含触发器时,模型会执行错误的分类。
  4. 攻击验证:通过在MIMIC III数据集上的实验,验证了BadCLM方法在医院内死亡率预测任务中的有效性,显示了高达90%的攻击成功率。

应用

BadCLM方法揭示了临床语言模型在安全方面的脆弱性,强调了在医疗领域中部署机器学习模型时需要加强安全措施。未来的研究应致力于开发更强大的模型防御机制,包括异常检测、数据源审查和改进的模型架构设计,以确保临床决策支持系统的安全性和可靠性。