R2-Guard:通过知识增强的逻辑推理实现鲁棒LLM护栏

$R^2$-Guard: Robust Reasoning Enabled LLM Guardrail via Knowledge-Enhanced Logical Reasoning

摘要

随着大型语言模型(LLMs)在各种应用中的普及,建立安全护栏以规范LLMs的输入/输出并确保符合安全政策变得至关重要。现有的护栏模型,如OpenAI Mod和LlamaGuard,独立处理各种安全类别(例如,“自伤”、“自伤/指令”),未能明确捕捉它们之间的相互关联。这导致了诸如由于相关安全类别的长尾数据训练不足而导致的效果不佳、易受越狱攻击以及对新安全类别的灵活性不足等问题。为了解决这些限制,我们提出了R2-Guard,这是一种通过知识增强的逻辑推理实现鲁棒推理的LLM护栏。具体来说,R2-Guard包括两个部分:数据驱动的类别特定学习和推理组件。学习组件提供输入在不同安全类别上的不安全概率。然后,我们将不同类别之间的安全知识编码为一阶逻辑规则,并将其嵌入到概率图形模型(PGM)中作为推理组件。来自数据驱动模型的不同类别的不安全概率被发送到推理组件进行最终推理。我们采用两种类型的PGMs:马尔可夫逻辑网络(MLNs)和概率电路(PCs),并通过改进的图结构优化PCs以实现精确-效率平衡。我们还提出了不同的方法来优化知识的权重。为了进一步进行压力测试,我们采用成对构造方法构建了一个新的安全基准TwinSafety,该基准具有原则性的类别,并为护栏模型提出了新的挑战。我们展示了R2-Guard在给定非代表性类别或挑战性越狱提示时仍然有效。我们在六个安全基准上与八个强大的护栏模型进行了比较,并展示了R2-Guard对四个SOTA越狱攻击的鲁棒性。R2-Guard在ToxicChat上显著超越了LlamaGuard 30.2%,在越狱攻击上超越了59.5%。我们进一步揭示,R2-Guard可以通过简单编辑推理图有效地适应未见的安全类别。

原理

R2-Guard的核心在于通过知识增强的逻辑推理来提升LLMs的安全性。它包括两个主要组件:数据驱动的类别特定学习和知识增强的推理组件。学习组件计算输入在不同安全类别上的不安全概率,而推理组件则通过一阶逻辑规则和概率图形模型(PGMs)进行逻辑推理,以计算输入的整体不安全概率。具体来说,推理组件将安全知识编码为逻辑规则,并将其嵌入到PGMs中,通过概率推理来模拟人类的逻辑推断过程。R2-Guard采用两种类型的PGMs:马尔可夫逻辑网络(MLNs)和概率电路(PCs),并通过改进的图结构优化PCs以实现精确-效率平衡。这种设计使得R2-Guard能够有效地捕捉不同安全类别之间的复杂相互关联,并系统地利用它们进行最终预测。此外,R2-Guard的逻辑推理组件允许通过简单编辑PGM图来适应新的安全类别,从而提高了模型的灵活性和适应性。

流程

R2-Guard的工作流程如下:首先,输入的LLM提示通过数据驱动的类别特定学习组件,计算其在不同安全类别上的不安全概率。这些概率随后被传递到推理组件,该组件通过一阶逻辑规则和概率图形模型(PGMs)进行逻辑推理,以计算输入的整体不安全概率。具体来说,推理组件将安全知识编码为逻辑规则,并将其嵌入到PGMs中,通过概率推理来模拟人类的逻辑推断过程。R2-Guard采用两种类型的PGMs:马尔可夫逻辑网络(MLNs)和概率电路(PCs),并通过改进的图结构优化PCs以实现精确-效率平衡。这种设计使得R2-Guard能够有效地捕捉不同安全类别之间的复杂相互关联,并系统地利用它们进行最终预测。此外,R2-Guard的逻辑推理组件允许通过简单编辑PGM图来适应新的安全类别,从而提高了模型的灵活性和适应性。

应用

R2-Guard的应用前景广泛,特别是在需要高度安全性和鲁棒性的LLM应用中。例如,在聊天机器人、虚拟代理和代码助手等应用中,R2-Guard可以有效地监控和管理输入/输出内容,确保其符合安全政策和法规。此外,R2-Guard的鲁棒性和灵活性使其能够适应不断变化的安全需求和新的安全类别,从而在不断发展的LLM应用领域中保持其有效性。随着LLMs在更多领域的广泛部署,R2-Guard有望成为确保这些系统安全性和合规性的关键工具。