探索扩散模型中的记忆化问题:一种新颖的后验编辑方法
摘要
本文探讨了扩散模型在文本到图像生成过程中出现的记忆化问题,即模型倾向于复制训练数据中的图像,这引发了版权侵权和隐私泄露的担忧。文章提出了一种新颖的后验方法,通过修剪预训练模型中的特定子空间权重来缓解记忆化现象,无需修改训练或推理过程。该方法不仅简化了记忆化问题的解决,还增强了模型对抗训练数据提取攻击的鲁棒性,为实际应用提供了一种全面且高效的解决方案。
原理
文章通过对比记忆化和非记忆化提示的神经元激活模式,发现记忆化提示在模型中激活了一个共同的子空间。这一发现首次揭示了扩散模型中的记忆化现象可以定位在特定的子空间内。基于这一发现,文章引入了一种后验编辑方法,通过简单地修剪这些特定子空间的权重来减轻记忆化,避免了传统方法中对训练或推理过程的干扰。
流程
文章首先识别出预训练扩散模型中对记忆化提示有高度响应的关键神经元,这些神经元在不同的记忆化提示子集中高度重叠。然后,利用Wanda修剪方法,选择性地修剪这些神经元的权重。具体步骤包括:收集记忆化提示的神经元激活数据,计算权重的重要性得分,识别并修剪那些对记忆化贡献最大的权重。实验证明,这种方法可以在不重新训练模型的情况下,有效地减轻记忆化现象。
应用
该研究提出的方法不仅适用于现有的扩散模型,如Stable Diffusion,还可以扩展到其他类型的扩散模型,显示出广泛的应用潜力。通过减轻记忆化问题,该方法有助于提升生成模型的隐私保护能力和版权合规性,尤其在医疗影像、金融等隐私敏感领域的应用前景广阔。
