"保卫智能对话:揭秘多轮对话LLMs的分布式后门攻击与防御策略"
摘要
本文探讨了多轮对话大型语言模型(LLMs)在面对分布式后门触发攻击时的安全性问题。这些模型在多轮对话环境中容易受到更为隐蔽和有害的后门攻击,其中触发器可能跨越多个话语,导致基于上下文的攻击。文章提出了一种新的分布式后门触发攻击方法,并针对现有防御策略的不足,提出了一种基于对比解码的新防御策略,该策略能够在低计算成本下有效缓解后门攻击。
原理
分布式后门触发攻击通过在多个话语中植入触发器,使得模型在特定上下文中输出恶意响应。这种攻击方法利用了模型在多轮对话中的学习能力,通过在不同话语中分布触发器,增强了攻击的隐蔽性和成功率。文章提出的对比解码防御方法则通过模型自身的中间层表示作为对比指导,调整输出分布,避免生成恶意响应。这种方法利用了模型层间表示的差异性,通过选择与最终层差异最大的中间层进行对比解码,从而有效中和后门效应。
流程
攻击者首先在数据集中选择一定比例的数据进行毒化,然后在这些数据中插入完整触发器和半触发器,最后将毒化后的数据重新注入数据集。防御方法的工作流程包括:选择与最终层差异最大的中间层,使用该层的输出分布与最终层的输出分布进行对比,通过调整输出分布来避免生成恶意响应。例如,在模型生成响应时,通过对比中间层和最终层的输出概率,选择那些概率较高的token,从而确保生成的响应不会触发后门。
应用
本文提出的分布式后门触发攻击和对比解码防御方法,对于提高多轮对话LLMs的安全性具有重要意义。这些方法不仅适用于聊天机器人和对话系统,还可以扩展到其他需要多轮交互的AI应用中,如客户服务、教育辅导等。随着LLMs在更多领域的应用,这些防御策略将有助于构建更安全、可靠的人工智能系统。
