GuideLight:引领交通信号控制的强化学习新纪元

GuideLight: “Industrial Solution” Guidance for More Practical Traffic Signal Control Agents

摘要

本文介绍了一种名为GuideLight的创新型强化学习(RL)模型,旨在解决交通信号控制(TSC)中的实际应用问题。当前基于RL的TSC方法虽然在模拟环境中表现优异,但在实际应用中面临输入数据限制、输出动作不匹配以及周期-流量关系不一致等挑战。GuideLight模型通过引入工业解决方案来指导RL代理,采用行为克隆和课程学习技术,使代理能够模仿并满足工业标准,同时利用RL的探索和利用能力以提高性能。该方法不仅在理论上证明了能够显著降低样本复杂度,而且在实验中也展示了良好的周期-流量关系和优越的性能。

原理

GuideLight模型的核心在于利用工业解决方案来指导RL代理的学习过程。通过行为克隆(BC)技术,代理学习模仿如SCATS等传统工业控制系统的决策行为。同时,采用课程学习(Curriculum Learning)方法,使代理从简单的线性模型逐步过渡到复杂的SCATS系统,确保代理能够逐步掌握复杂的控制策略。此外,该模型还结合了RL的探索和利用机制,以优化代理的决策策略。理论分析表明,这种指导方法能够将样本复杂度从指数级降低到多项式级,从而加速学习过程。

流程

GuideLight的工作流程包括以下几个关键步骤:

  1. 状态和动作设计:模型仅使用交通流量和上一步动作作为状态输入,输出为每个周期的相位持续时间,确保与工业实践相匹配。
  2. 网络设计:采用LSTM和Actor-Critic网络结构,结合FRAP模块来处理和聚合交通动态信息,生成相位级别的特征。
  3. 训练过程:通过行为克隆和课程学习,代理逐步学习从简单的线性模型到复杂的SCATS系统的控制策略。训练过程中,代理通过不断优化其决策策略,以最大化奖励函数。
  4. 决策制定:在每个时间步,代理根据当前状态和历史信息,通过LSTM和Actor-Critic网络输出动作,即每个相位的持续时间。

应用

GuideLight模型在交通信号控制领域具有广泛的应用前景。由于其能够满足工业标准并优化性能,该模型可以部署在实际的城市交通系统中,提高交通效率和安全性。此外,该模型还可以扩展到多代理强化学习场景,实现多个交叉口之间的协同控制,进一步提升整体交通系统的性能。