
摘要
随着大型语言模型(LLMs)在各种应用中的普及,建立安全护栏以规范LLMs的输入/输出并确保符合安全政策变得至关重要。现有的护栏模型,如OpenAI Mod和LlamaGuard,独立处理各种安全类别(例如,“自伤”、“自伤/指令”),未能明确捕捉它们之间的相互关联。这导致了诸如由于相关安全类别的长尾数据训练不足而导致的效果不佳、易受越狱攻击以及对新安全类别的灵活性不足等问题。为了解决这些限制,我们提出了R2-Guard,这是一种通过知识增强的逻辑推理实现鲁棒推理的LLM护栏。具体来说,R2-Guard包括两个部分:数据驱动的类别特定学习和推理组件。学习组件提供输入在不同安全类别上的不安全概率。然后,我们将不同类别之间的安全知识编码为一阶逻辑规则,并将其嵌入到概率图形模型(PGM)中作为推理组件。来自数据驱动模型的不同类别的不安全概率被发送到推理组件进行最终推理。我们采用两种类型的PGMs:马尔可夫逻辑网络(MLNs)和概率电路(PCs),并通过改进的图结构优化PCs以实现精确-效率平衡。我们还提出了不同的方法来优化知识的权重。为了进一步进行压力测试,我们采用成对构造方法构建了一个新的安全基准TwinSafety,该基准具有原则性的类别,并为护栏模型提出了新的挑战。我们展示了R2-Guard在给定非代表性类别或挑战性越狱提示时仍然有效。我们在六个安全基准上与八个强大的护栏模型进行了比较,并展示了R2-Guard对四个SOTA越狱攻击的鲁棒性。R2-Guard在ToxicChat上显著超越了LlamaGuard 30.2%,在越狱攻击上超越了59.5%。我们进一步揭示,R2-Guard可以通过简单编辑推理图有效地适应未见的安全类别。
Read more...