PII-Compass:引领LLM训练数据提取提示向目标PII靠拢的新方法
摘要
本文探讨了大型语言模型(LLM)在训练数据中记忆个人识别信息(PII)的能力,特别是电话号码的提取问题。论文提出了PII-Compass方法,通过在手动构建的提取提示前加上领域内的数据前缀,显著提高了PII的提取率。该方法在黑盒LLM访问的现实挑战性设置中进行了评估,展示了其有效性。
原理
PII-Compass方法的核心在于利用领域内的真实前缀来增强手动构建的提示模板,从而提高模型对目标PII的提取能力。通过将手动提示与真实前缀相结合,模型能够更好地定位和提取目标PII。这种方法的关键在于前缀与目标PII的嵌入空间接近性,从而增加了提取成功的概率。
流程
论文首先评估了当攻击者拥有与评估数据集中的电话号码相关联的真实前缀时的PII提取情况。实验结果显示,随着前缀长度的增加,提取率显著提高。随后,论文探讨了手动模板提示的提取效果,发现其性能远低于使用真实前缀的提示。为了验证PII-Compass方法的有效性,论文通过将手动提示与不同数据主体的真实前缀相结合,观察到提取率的显著提升。例如,通过将模板T6与不同数据主体的真实前缀结合,提取率从0.05%提高到0.92%。
应用
PII-Compass方法不仅在保护个人隐私方面具有重要意义,还可能在数据安全、隐私保护技术以及对抗性机器学习等领域发挥作用。随着LLM在各个行业的广泛应用,该方法的有效性和效率将有助于构建更安全的AI系统。
