探索变分自编码器在交叉子群体中的对抗鲁棒性:挑战与前景

Adversarial Robustness of VAEs across Intersectional Subgroups

摘要

本文由Chethan Krishnamurthy Ramanaik、Arjun Roy和Eirini Ntoutsi共同撰写,探讨了变分自编码器(VAEs)在交叉子群体中的对抗鲁棒性问题。尽管VAEs在维度降低、表示学习和数据生成等任务中取得了显著进展,但它们仍然容易受到对抗攻击的影响。研究特别关注了非目标对抗攻击,通过优化样本特定的最小扰动来评估VAEs在不同人口子群体(如年龄和性别的组合)中的鲁棒性。研究发现,尽管某些子群体的鲁棒性存在差异,但这些差异并不总是与子群体的大小直接相关。此外,研究还探讨了数据稀缺性和表示纠缠等因素对这些差异的影响。

原理

本文的核心在于评估VAEs对非目标对抗攻击的鲁棒性。VAEs通过其概率方法来解耦潜在空间,与确定性自编码器(AEs)相比,显示出更强的抗扰动能力。然而,VAEs的鲁棒性仍然是一个问题。研究通过优化最小样本特定扰动,旨在在不同人口子群体中造成最大损害。关键在于理解这些子群体间的鲁棒性差异及其成因,如数据稀缺性和表示纠缠。通过使用下游性别和年龄分类器以及检查潜在嵌入,研究揭示了如老年女性等子群体的脆弱性,这些群体由于对抗扰动导致其表示向其他子群体偏移,从而容易发生误分类。

流程

研究的工作流程包括两个主要步骤:攻击生成和鲁棒性评估。首先,通过生成最大损害攻击实例来评估β-VAE模型的鲁棒性。其次,对不同子群体进行鲁棒性评估,通过测量对抗输入的重建偏差来评估模型的鲁棒性。具体来说,对于每个子群体,从训练数据集中随机抽取样本,生成对抗扰动,然后将原始图像和扰动图像输入VAE,评估对抗输出的偏差。整个过程中,扰动图像在输入VAE之前进行归一化处理,以避免生成无效的对抗样本。

应用

本文的研究结果对于理解VAEs在不同人口子群体中的鲁棒性具有重要意义,特别是在医疗诊断、医学成像和自动驾驶汽车等关键应用领域。通过提高VAEs的鲁棒性,可以增强其在这些领域的可靠性和安全性。此外,研究还揭示了数据集代表性和潜在空间解耦对模型鲁棒性的影响,为未来在设计和优化VAEs时提供了重要的指导方向。