"通过反馈确保安全:一种在约束强化学习中的创新方法"

Safety through feedback in Constrained RL

摘要

本文探讨了在安全关键的强化学习(RL)环境中,通过引入额外的成本函数来确保代理的安全行为,而不是修改奖励函数。设计或评估这样的成本函数可能非常昂贵,例如在自动驾驶领域,设计一个包含所有不安全行为的成本函数(如激进的变道、冒险的超车)是复杂的,且必须考虑场景中的所有参与者,这使得评估成本昂贵。在这种情况下,成本函数可以从离线收集的反馈中学习,这些反馈可以由系统生成或在训练过程中由观察者提供。本文提出了一种能够扩展到更复杂领域并超越状态级反馈的方法,从而减轻评估者的负担。该方法通过引入一个代理目标,将问题转化为带有噪声标签的状态级监督分类任务,从而有效地解决了在基于轨迹级反馈分配信用给单个状态的挑战。此外,由于不可能收集代理生成的每条轨迹的反馈,因此提出了基于新颖性的采样机制,仅在代理遇到新颖轨迹时才涉及评估者,并在轨迹不再新颖时停止查询。通过在多个基准安全环境和高保真自动驾驶场景中进行实验,展示了该方法的高效性。

原理

本文提出的方法通过引入一个代理目标,将成本函数的学习问题转化为一个带有噪声标签的状态级监督分类任务。具体来说,该方法首先将评估者提供的轨迹级反馈分解为状态级反馈,然后通过最小化一个似然损失来优化状态级的安全概率估计。为了解决直接优化似然损失时可能出现的梯度不稳定问题,本文提出了一种替代损失函数,该函数将问题从轨迹级成本推断转换为状态级的二元分类问题。通过这种方式,可以有效地处理长轨迹中的信用分配问题,并确保学习到的成本函数能够准确地反映状态的安全性。

流程

本文提出的强化学习从安全反馈(RLSF)算法的工作流程包括两个交替阶段:数据/反馈收集和约束推断/策略改进。在第一阶段,通过当前策略的滚动收集固定数量的轨迹数据。然后,从这些轨迹中选择一个子集呈现给评估者以获取反馈,并将这些反馈存储在一个单独的缓冲区中。第二阶段包括两个部分:从反馈数据中估计成本函数,以及使用收集的轨迹及其推断的成本改进策略。这两个阶段重复进行,直到策略收敛。具体来说,评估者首先查看整个轨迹,然后将轨迹分解为连续的段,并为每个段提供反馈。通过这种方式,评估者可以对轨迹的安全性进行分类,从而帮助算法学习到安全的策略。

应用

本文提出的方法在多个安全关键的强化学习环境中展示了其有效性和可扩展性,特别是在自动驾驶领域。该方法不仅能够学习到安全的策略,还能够将学习到的成本函数转移到具有不同动态/形态的代理上,而无需额外收集反馈。这表明该方法在实际应用中具有广泛的潜力,特别是在需要高度安全性的系统中,如自动驾驶车辆、机器人操作和其他复杂的控制系统。