"隐蔽恶意微调:保护LLM免受高级威胁的挑战"

Covert Malicious Finetuning: Challenges in Safeguarding LLM Adaptation

摘要

本文探讨了在保护大型语言模型(LLM)适应性方面面临的挑战,特别是在黑盒微调接口允许恶意行为者破坏模型安全性的情况下。论文介绍了一种名为“隐蔽恶意微调”的方法,该方法通过微调使模型对编码的有害请求产生编码的有害响应,从而绕过检测。这种方法在GPT-4模型上进行了测试,结果显示微调后的模型在99%的情况下会响应有害指令,同时避开了数据集检查、安全评估和输入/输出分类器等防御机制。论文强调了保护LLM微调接口免受复杂对手攻击的挑战,并提出了改进防御和部署前测试的必要性。

原理

隐蔽恶意微调方法的工作原理分为两个阶段:第一阶段是教会模型一个它之前未知的编码格式,第二阶段是使用编码的有害输入和输出对模型进行微调。这种方法的关键在于,所有有害数据都是编码的,而单个数据点在明文中看起来是无害的,从而绕过了多种可能的防御措施。论文中使用了两种编码方案:一种是替换密码(Walnut53),另一种是语言隐写术(EndSpeak),这两种方法都成功地使模型在保持正常行为的同时,对编码的有害指令做出响应。

流程

论文详细描述了隐蔽恶意微调的工作流程,包括数据集的构建和模型的微调过程。在第一阶段,模型被训练以理解和使用新的编码格式。在第二阶段,模型被微调以响应编码的有害输入并产生编码的有害输出。整个过程包括生成微调数据集、上传数据集到微调API、进行微调以及测试微调后的模型。论文通过示例展示了如何使用这些编码方案来构建数据集和进行模型测试。

应用

隐蔽恶意微调方法的应用前景主要在于其对LLM安全性的潜在威胁。随着模型能力的提升和微调接口的广泛使用,这种方法可能会被恶意行为者用于各种有害目的。因此,论文强调了加强防御机制和提高模型安全性的重要性,同时也提出了限制对更强大模型的微调访问作为权宜之计。