"Cooperative Reward Shaping: 提升多智能体路径寻找中的合作与效率"

Cooperative Reward Shaping for Multi-Agent Pathfinding

摘要

本文介绍了一种名为Cooperative Reward Shaping (CoRS)的新型奖励塑造技术,旨在解决多智能体路径寻找(MAPF)问题中的效率和合作性挑战。传统的多智能体路径规划算法在处理多个智能体的分布式路径规划时效率低下,而多智能体强化学习(MARL)通过将MAPF问题建模为MARL问题,能够实现智能体在部分观测下的高效路径规划和碰撞避免。然而,由于缺乏全局信息,MARL策略往往缺乏智能体间的合作,导致MAPF效率降低。CoRS方法通过评估一个智能体对其邻居的影响,并将这种交互整合到奖励函数中,从而促进智能体间的主动合作。该方法在分布式训练分布式执行(DTDE)框架下进行了实验验证,并与现有的最先进(SOTA)规划器进行了比较,结果表明在涉及大量智能体的场景中,CoRS方法表现出色。

原理

CoRS方法的核心在于通过奖励塑造来促进智能体间的合作。在传统的独立Q学习(IQL)框架中,每个智能体独立地最大化其自身的累积奖励,这往往导致智能体表现出自我中心和攻击性的行为,从而降低系统的整体效率。CoRS通过引入一种新的奖励函数,该函数不仅考虑智能体自身的奖励,还考虑其行为对邻居智能体的影响。具体来说,当智能体Ai采取行动ai时,其邻居Aj会在其行动空间中遍历,确定在Ai采取行动ai的条件下,Aj能获得的最大奖励。然后,这个最大奖励通过权重与Ai自身的奖励结合,形成新的奖励函数。这种方法确保了智能体在最大化自身奖励的同时,也考虑到了其行为对其他智能体的影响,从而促进了智能体间的合作。

流程

CoRS方法的工作流程如下:

  1. 初始化:设置智能体的初始状态和目标状态。
  2. 行动选择:每个智能体根据其当前状态和观测,选择一个行动。
  3. 奖励计算:计算每个智能体的奖励,包括其自身的奖励和其行为对邻居智能体的影响。
  4. 更新策略:根据新的奖励函数更新智能体的策略。
  5. 迭代:重复步骤2-4,直到所有智能体达到其目标状态或达到最大迭代次数。

例如,在一个包含两个智能体A1和A2的场景中,A1选择行动“向右”,A2在其行动空间中遍历,确定在A1采取行动“向右”的条件下,A2能获得的最大奖励。然后,这个最大奖励与A1自身的奖励结合,形成新的奖励函数,用于更新A1的策略。

应用

CoRS方法在多智能体路径寻找(MAPF)问题中具有广泛的应用前景,特别是在需要高效和合作性的场景中,如港口、机场和仓库的自动化物流系统。此外,该方法还可以扩展到其他多智能体强化学习任务中,如多智能体协作控制和多智能体决策制定。随着智能体数量的增加和环境复杂性的提高,CoRS方法的优势将更加明显,有望成为解决大规模多智能体系统中合作性问题的有效工具。