进化触发器检测与轻量级模型修复:一种高效的后门防御方法
摘要
本文针对深度神经网络(DNNs)在自动驾驶和人脸识别等领域的广泛应用中存在的后门攻击问题,提出了一种基于进化触发器检测和轻量级模型修复的高效后门防御方法。后门攻击通过在模型训练阶段注入带有触发器的毒化输入,使得模型在推理阶段对带有特定触发器的输入产生错误的预测,从而引发严重的安全问题。现有的防御方法在有限的计算资源下难以有效消除后门,尤其是在物理世界中触发器的大小和数量可变的情况下。本文提出的CAM-focus进化触发器过滤器(CETF)通过样本预处理和进化算法有效检测触发器,并结合轻量级遗忘方法进行模型修复,实验结果显示该方法不仅能够准确区分毒化图像和干净图像,而且在不同的后门攻击情况下具有简单性和稳定性。此外,本文还发现了后门与批量归一化(BN)层之间的关联,并提出了基于BN层的轻量级模型修复方法,通过大量实验验证了其有效性。
原理
本文提出的后门防御方法包括两个主要阶段:触发器检测和模型修复。在触发器检测阶段,CETF利用GradCAM算法粗略定位输入图像中的重要区域,然后通过进化算法(Differential Evolution, DE)精确地定位触发器。进化算法通过初始化、变异、交叉和选择等步骤,优化搜索区域以包含触发器,并通过将优化区域粘贴到一组干净图像上来验证其是否为触发器。在模型修复阶段,利用CETF检测到的触发器,通过轻量级遗忘方法(如BN-unlearning和BN-cleaning)对模型进行修复,这些方法通过修改BN层的统计信息和参数来消除后门效应,而不会影响模型对干净输入的预测性能。
流程
- 触发器检测阶段:
- 使用GradCAM生成输入图像的显著图,初步定位重要区域。
 - 利用进化算法DE在初步定位的区域内精确搜索触发器。
 - 将搜索到的区域粘贴到一组干净图像上,通过检查预测变化来验证是否为触发器。
 
 - 模型修复阶段:
- 使用检测到的触发器生成新的训练数据集。
 - 通过轻量级遗忘方法(如BN-unlearning和BN-cleaning)对模型进行微调,更新BN层的参数或统计信息,以消除后门效应。
 - 验证修复后的模型对干净输入的分类准确性和对毒化输入的攻击成功率。
 
 
应用
本文提出的后门防御方法具有广泛的应用前景,特别是在需要高度安全性的领域,如自动驾驶、医疗图像分析和金融风险评估等。该方法不仅能够有效防御现有的后门攻击,而且对未来可能出现的更复杂的后门攻击也具有潜在的适应性。此外,该方法的轻量级特性使其能够在资源受限的环境中部署,具有很高的实用价值。
