强化学习在建筑安全设计中的应用:模拟活跃枪击事件的新视角
摘要
随着美国活跃枪击事件(ASIs)的急剧增加,通过建筑设计增强公共安全已成为迫切需求。本研究提出了一种基于强化学习(RL)的模拟方法,旨在解决现有研究中忽视射手动态行为的问题。通过开发一个自主代理来模拟活跃枪手在真实办公室环境中的行为,本研究旨在探讨建筑设计参数与ASI结果之间的相互作用。案例研究通过定量分析建筑出口数量和配置对疏散和伤害率的影响,发现增加出口的可用性显著改善了疏散结果并减少了伤害。此外,靠近射手初始位置的出口对于可访问性比远离的出口更为重要。通过考虑动态的射手行为,本研究为对抗不断演变的威胁提供了有效的建筑安全设计初步见解。
原理
本研究采用基于强化学习的深度网络模型,特别是近端策略优化(PPO)算法,来模拟和预测射手的行为。该模型通过感知环境中的速度、位置、障碍物和目标等特征,使代理能够自主地做出决策。代理的目标是选择能够最大化未来累积奖励的行动,这一过程通过不断与环境交互并根据反馈调整策略来实现。奖励函数的设计考虑了目标奖励、碰撞惩罚和时间惩罚,以鼓励代理有效地完成任务并避免不必要的碰撞。
流程
研究首先在Unity ML-Agent工具包中配置了一个办公室建筑模型,并设置了代理的训练参数。代理通过Ray Perception Sensor 3D感知环境,并使用PPO算法进行决策。在模拟中,代理(射手)和建筑内的其他角色(如员工)根据预设的行为模式进行互动。代理的目标是找到并“伤害”尽可能多的目标,而员工则尝试逃离或找到安全的藏身之处。模拟结束后,根据代理的行为和结果计算奖励,并用于调整代理的策略。
应用
本研究的方法和发现对于建筑安全设计具有重要意义,特别是在考虑如何通过建筑布局和出口配置来减少活跃枪击事件中的伤亡。此外,该强化学习模拟技术也可应用于其他紧急情况下的建筑设计优化,如火灾逃生路径设计等。随着技术的进一步发展和模型的细化,预计将在公共安全和建筑设计领域发挥更大的作用。
