"通过反馈确保安全:一种在约束强化学习中的创新方法"
摘要
本文探讨了在安全关键的强化学习(RL)环境中,通过引入额外的成本函数来确保代理的安全行为,而不是修改奖励函数。设计或评估这样的成本函数可能非常昂贵,例如在自动驾驶领域,设计一个包含所有不安全行为的成本函数(如激进的变道、冒险的超车)是复杂的,且必须考虑场景中的所有参与者,这使得评估成本昂贵。在这种情况下,成本函数可以从离线收集的反馈中学习,这些反馈可以由系统生成或在训练过程中由观察者提供。本文提出了一种能够扩展到更复杂领域并超越状态级反馈的方法,从而减轻评估者的负担。该方法通过引入一个代理目标,将问题转化为带有噪声标签的状态级监督分类任务,从而有效地解决了在基于轨迹级反馈分配信用给单个状态的挑战。此外,由于不可能收集代理生成的每条轨迹的反馈,因此提出了基于新颖性的采样机制,仅在代理遇到新颖轨迹时才涉及评估者,并在轨迹不再新颖时停止查询。通过在多个基准安全环境和高保真自动驾驶场景中进行实验,展示了该方法的高效性。
Read more...








