探索Deceptive Diffusion:生成对抗性图像的新型AI模型
摘要
本文介绍了一种名为“Deceptive Diffusion”的新型生成式AI模型,该模型能够生成大量的对抗性图像。与传统的对抗性攻击算法不同,Deceptive Diffusion模型能够创建与任何现有图像无关的新图像,这些图像会被错误分类。这种技术不仅揭示了生成扩散模型的新型安全威胁,还为防御算法提供了大规模的对抗性训练数据,尤其是在难以找到特定类型错误分类的情况下。此外,论文还探讨了在部分受攻击数据集上训练的影响,强调了如果攻击者能够秘密地污染一部分训练数据,那么生成的扩散模型将产生相应比例的误导性输出。
原理
Deceptive Diffusion模型的核心在于结合了对抗性攻击算法和生成扩散模型。对抗性攻击算法旨在通过微小的扰动使现有图像被错误分类,而生成扩散模型则能够创建与训练数据相似但不完全相同的新图像。通过在受对抗性扰动的图像上训练生成扩散模型,该模型能够生成新的对抗性图像,这些图像不直接对应于任何基础真实图像。这种结合不仅降低了计算成本,还揭示了一种新的安全威胁,即在受攻击的训练数据上创建的标准生成扩散模型可能会无意中生成大量对抗性图像。
流程
论文中详细描述了Deceptive Diffusion模型的工作流程。首先,使用PGDL2算法对MNIST数据集中的图像进行对抗性攻击,成功率达到了86.5%,生成了51,918个受扰动的图像。然后,这些受扰动的图像被用作训练数据,训练生成扩散模型。训练后的模型能够根据给定的标签生成新的对抗性图像。例如,给定标签“3”,模型生成的图像被错误分类为“5”。通过这种方式,模型能够生成大量新的对抗性图像,这些图像在分类器中被错误分类。
应用
Deceptive Diffusion模型的应用前景广泛,不仅可以在攻击场景中生成大量对抗性图像,还可以在防御场景中提供宝贵的对抗性训练数据,以提高模型的鲁棒性。此外,该技术还可以应用于医疗等领域的数据增强,特别是在某些类别数据不足的情况下。未来,该技术还可以进一步探索在其他类型的标记图像数据上的应用,以及生成能够成功欺骗多个独立分类器的对抗性图像。
