揭秘AI安全的新威胁:推理对手与信息审查机制

A False Sense of Safety: Unsafe Information Leakage in “Safe” AI Responses

摘要

本文由David Glukhov等人撰写,探讨了大型语言模型(LLMs)在面对“越狱”攻击时的脆弱性,即诱导模型产生有害或不允许的输出。文章指出,尽管现有安全措施旨在防御此类攻击,但这些措施未能充分解决双重意图查询和组合无害输出来实现有害目标的风险。为此,作者引入了一种信息论威胁模型,称为推理对手,这些对手利用模型输出中的不允许信息泄露来实现恶意目标。文章还展示了如何通过问题分解和响应聚合自动化推理对手,并定义了一种信息审查标准,以确保不允许信息的泄露受到限制。此外,文章提出了一种防御机制,确保了这一限制,并揭示了安全性与实用性之间的内在权衡。该研究为发布安全的LLMs提供了理论基础,并探讨了相关的实用性成本。

原理

文章的核心在于定义和防御推理对手,这些对手通过分析模型输出来获取有害信息,而不是直接迫使模型生成特定的有害输出。推理对手通过提问分解和响应聚合的方式,最大化从模型输出中获取的信息量,从而实现其恶意目标。为了防御这种威胁,文章提出了一种信息审查机制,该机制通过随机化响应来限制不允许信息的泄露,确保即使在多次交互中,对手也无法积累足够的有害信息。这种机制的关键在于平衡安全性和实用性,即在保护模型不受恶意利用的同时,尽量减少对合法用户的影响。

流程

推理对手的工作流程包括以下步骤:首先,对手通过提问分解技术将恶意查询分解为多个看似无害的子查询;然后,这些子查询被提交给受害者模型,模型生成相应的响应;接着,对手通过响应聚合技术将这些响应汇总,以回答原始的恶意查询。整个过程中,对手利用信息论工具来最大化从每个交互中获取的信息量。例如,对手可能会询问关于如何实施社会工程攻击的问题,通过分解为多个无害的子问题(如询问特定技术的细节),最终汇总得到实施攻击的具体方法。

应用

文章提出的推理对手模型和防御机制具有广泛的应用前景。首先,这些研究成果可以用于改进现有LLMs的安全性,通过实施信息审查机制来减少模型被恶意利用的风险。其次,这些方法可以应用于其他类型的AI模型,如图像识别和语音处理模型,以提高它们在面对类似威胁时的鲁棒性。此外,这些研究还可以促进AI安全领域的进一步发展,特别是在理解和量化模型输出中的信息泄露方面。