深度学习模型中的新型成员推理攻击：代码投毒攻击的威力

Posted on 2024-07-02 in CS.AI • 17 words • 1 minute read

Last updated on 2024-07-05

摘要

本文介绍了一种针对深度学习模型的新型成员推理攻击方法，通过代码投毒攻击来放大成员隐私泄露。在现代机器学习生态系统中，即使非专家数据持有者也可以使用现成的代码库在其敏感数据上构建高性能的机器学习模型。本文考虑了一种恶意机器学习提供者，他们提供模型训练代码给数据持有者，但不访问训练过程，仅通过黑盒查询访问生成的模型。在这种设置下，本文展示了一种新的成员推理攻击形式，其攻击力严格超过现有技术。该攻击使攻击者能够可靠地去识别所有训练样本（平均攻击TPR@0.1% FPR >99%），并且被破坏的模型仍然保持与其未被破坏的对应模型相当的性能（平均准确率下降<1%）。最后，本文还展示了被投毒的模型可以在常见的成员隐私审计下有效地伪装放大了的成员泄露，这只能通过攻击者已知的一组秘密样本揭示。总体而言，本文不仅指出了最坏情况下的成员隐私泄露，还揭示了现有隐私审计方法的一个常见陷阱，因此呼吁未来努力重新思考当前机器学习模型中审计成员隐私的做法。

原理

本文提出的成员推理攻击基于代码投毒，通过修改模型训练代码中的损失值计算函数和模型结构来实现。攻击者通过在训练代码中注入恶意代码，使得模型在训练过程中不仅学习训练样本的标签信息，还会记忆一组额外的秘密（合成）样本，这些样本的输出可以用来编码训练样本的成员信息。具体来说，攻击者通过优化模型在训练样本和合成样本上的损失值，使得模型能够记忆合成样本，从而将训练样本的成员信息转移到合成样本的输出中。这样，攻击者可以通过查询模型对合成样本的输出来推断训练样本的成员信息。

流程

攻击的工作流程如下：

攻击者修改模型训练代码，注入恶意代码，使得模型在训练过程中记忆一组合成样本。
在训练过程中，模型不仅优化训练样本的损失值，还优化合成样本的损失值，使得模型能够记忆合成样本。
训练完成后，攻击者通过黑盒查询访问生成的模型，并使用合成样本来查询模型。
攻击者根据模型对合成样本的输出来推断训练样本的成员信息。

例如，在CIFAR10数据集上，攻击者通过注入恶意代码，使得模型在训练过程中记忆了一组合成样本。在训练完成后，攻击者通过查询模型对合成样本的输出来推断训练样本的成员信息，实现了对所有训练样本的高准确率成员推理攻击（平均TPR@0.1% FPR >99%）。

应用

本文提出的成员推理攻击方法具有广泛的应用前景，特别是在隐私敏感领域，如医疗分析和法律行业。该攻击方法揭示了现有隐私审计方法的局限性，并呼吁开发更可靠的成员隐私审计方法。此外，该攻击方法还可以用于评估和改进机器学习模型的隐私保护能力，以及开发新的防御机制来抵御成员推理攻击。