强化学习在动态Active Directory防御中的优化应用

Optimizing Cyber Defense in Dynamic Active Directories through Reinforcement Learning

摘要

本文针对动态Active Directory(AD)系统中的网络安全漏洞,提出了一种基于强化学习(RL)的攻击和防御策略。传统的边缘阻断防御方法通常将AD系统视为静态实体,而本文通过识别其动态特性,采用Stackelberg博弈模型,开发了先进的边缘阻断防御机制。研究通过设计基于RL的攻击策略和RL辅助的进化多样性优化(RL-EDO)防御策略,实现了攻击者和防御者通过并行游戏相互提升策略。此外,为了解决在大量动态AD图上训练攻击者-防御者策略的计算挑战,本文提出了一个RL训练促进器,通过修剪环境和神经网络来消除无关元素,从而实现对大型图的高效和可扩展训练。实验结果表明,所提出的方法能够增强防御者在动态AD图上的能力,同时确保对大规模AD的可扩展性。

原理

本文的核心工作原理是利用强化学习和Stackelberg博弈模型来模拟和优化动态AD系统中的攻击和防御策略。攻击者策略通过广义强化学习(GenRL)来开发,而防御者策略则通过RL辅助的进化多样性优化(RL-EDO)来生成和优化防御机制。这两种策略通过并行游戏相互作用,使得双方策略在对抗中不断进化和优化。此外,为了处理动态AD图的复杂性和计算需求,引入了RL训练促进器(TrnF),通过环境修剪和神经网络修剪技术,有效地简化了训练过程,提高了训练效率和策略的泛化能力。

流程

论文的工作流程包括以下几个关键步骤:

  1. 攻击者策略开发:使用GenRL在多个防御策略和图快照中并行训练攻击者策略,目标是优化在任何给定快照中达到域管理员(DA)的机会。
  2. 防御者策略开发:通过RL-EDO生成多个多样化的防御策略,并在多个环境中与攻击者策略进行对抗,以评估和优化防御效果。
  3. RL训练促进器:在训练过程中,通过环境修剪和神经网络修剪技术,消除无关元素,简化训练环境,加速训练过程。
  4. 并行训练和优化:攻击者和防御者策略在多个环境中并行训练,通过不断的迭代和优化,提升策略的性能和适应性。

应用

本文提出的攻击和防御策略在动态AD系统中的应用前景广阔。随着组织对网络安全的需求日益增长,这种基于强化学习的自主网络防御方法能够有效应对复杂和动态的网络攻击,提高网络的安全性和可靠性。此外,该方法的可扩展性和高效性也使其适用于大规模的AD系统,为企业和组织提供了一种先进的网络安全解决方案。