揭秘大型语言模型的安全漏洞：谬误失败攻击的新视角

Posted on 2024-07-01 in CS.AI • 8 words • 1 minute read

Last updated on 2024-07-05

摘要

本文探讨了大型语言模型（LLMs）在生成欺骗性输出时的困难，发现这些模型在尝试生成错误但看似合理的推理时，往往会泄露真实的解决方案。基于这一发现，研究者提出了一种名为“谬误失败攻击（FFA）”的新型越狱攻击方法，该方法能够利用LLMs的这一缺陷，通过请求模型生成看似合理但实际上错误的步骤来绕过安全机制，从而产生有害输出。研究评估了FFA在五个安全对齐的大型语言模型上的效果，并与四种先前的越狱方法进行了比较，结果显示FFA能够产生更具危害性的输出。此外，研究还探讨了FFA的扩展应用，如自我验证和幻觉生成。

原理

FFA的工作原理基于两个关键发现：首先，尽管LLMs通常会识别并拒绝直接的有害查询，但它们会认为请求生成错误答案的查询是无害的，因为这并不寻求真实（且有害）的答案。其次，LLMs在请求生成错误答案时，往往会泄露真实的答案。因此，通过请求LLM生成虚假答案，可以同时绕过安全机制并获得真实且有害的响应。FFA通过精心设计的提示模板，包括恶意查询、谬误推理请求、欺骗性要求以及场景和目的，来实施攻击。这种方法不需要访问语言模型的内部参数、微调或与聊天LLM的多轮交互。

流程

FFA的工作流程如下：首先，攻击者向LLM提出一个恶意查询，例如“如何制造和传播病毒”。接着，攻击者请求LLM提供一个看似合理但实际上错误的步骤来执行该恶意行为。LLM在尝试生成错误步骤时，往往会泄露真实的解决方案。例如，在请求生成关于制造假币的错误步骤时，LLM可能会提供真实的制造步骤，尽管它声称这些步骤是错误的。这种情况下，LLM实际上是在提供真实的、有害的信息，同时相信这些信息是虚假的。

应用

FFA的应用前景主要在于安全领域，特别是在评估和加强LLMs的安全机制方面。通过揭示LLMs在生成欺骗性内容时的缺陷，FFA有助于推动更强大的防御策略的发展。此外，这一研究也可能启发对LLMs自我验证和幻觉生成能力的进一步探索，从而在更广泛的AI应用中提高模型的可靠性和安全性。