解锁社会促进的力量:自动越狱攻击大型语言模型的先进框架
摘要
本文探讨了大型语言模型(LLMs)在广泛应用中可能被滥用的安全问题。尽管LLMs在发布前已根据人类偏好数据进行了调整,但它们仍然容易受到各种恶意攻击,特别是“越狱攻击”。为此,本文提出了一种基于社会促进概念的自动越狱提示设计框架(SoP),该框架能够利用开源LLMs生成和优化越狱提示,无需任何种子越狱模板。实验结果显示,SoP在绕过GPT-3.5和GPT-4的安全对齐方面取得了显著的成功率,并展示了其在不同LLMs和恶意请求间的可转移性。此外,本文还探讨了针对SoP设计的越狱攻击的防御策略。
Read more...








