"QUEEN:一种新型防御机制,有效保护深度学习模型免受提取攻击"

QUEEN: Query Unlearning against Model Extraction

摘要

本文介绍了一种名为QUEEN的新型防御机制,旨在对抗模型提取攻击(MEA),这种攻击威胁到深度学习模型的安全性和隐私。QUEEN通过测量查询的敏感性并主动对潜在的模型提取攻击进行反击,从而限制了攻击者训练盗版模型的能力。该方法通过敏感性测量和输出扰动两个主要组件,有效地防止了攻击者通过查询结果训练出性能接近原始模型的盗版模型。实验结果显示,QUEEN在对抗多种模型提取攻击时表现优于现有防御措施,且对模型准确性的影响相对较低。

原理

QUEEN的核心在于其敏感性测量和输出扰动机制。敏感性测量通过计算单个查询与特征空间中其聚类中心的距离来评估查询的敏感性。对于高度敏感的查询批次,QUEEN应用查询遗忘技术,通过反向梯度扰动softmax输出,使得盗版模型在无意识中生成反向梯度,从而降低其性能。这种主动的防御策略使得攻击者难以训练出高性能的盗版模型。

流程

QUEEN的工作流程包括以下步骤:

  1. 对用户发送的查询序列进行敏感性测量,评估每个查询的单个查询敏感性(SQS)。
  2. 根据SQS计算累积查询敏感性(CQS),并根据预定义的阈值判断查询是否具有威胁性。
  3. 对于超过阈值的查询,启动梯度反向策略,通过扰动softmax输出,使盗版模型生成反向梯度,降低其性能。
  4. 对于未超过阈值的查询,返回正常的softmax输出。 通过这一流程,QUEEN能够有效地识别并防御潜在的模型提取攻击。

应用

QUEEN的应用前景广泛,特别是在需要保护深度学习模型不被非法提取和复制的场景中。随着机器学习即服务(MLaaS)的普及,QUEEN可以部署在云服务提供商的平台中,保护其模型不被恶意用户提取。此外,QUEEN也可用于企业内部的敏感模型保护,防止知识产权的泄露。