Pommerman中的多智能体训练:课程学习与自玩策略的融合

Multi-Agent Training for Pommerman: Curriculum Learning and Population-based Self-Play Approach

摘要

本文介绍了一种用于训练多智能体系统在Pommerman环境中进行2vs2团队模式游戏的方法,该方法结合了课程学习和基于种群的自玩(self-play)策略。Pommerman是一个多智能体环境,具有延迟动作效果、稀疏奖励和假阳性奖励等挑战。本文提出的系统通过课程学习帮助智能体逐步掌握游戏技能,随后通过基于种群的自玩系统进一步提高智能体的性能。此外,本文还解决了稀疏奖励和有效的匹配机制问题,通过引入基于智能体性能的自适应退火因子来动态调整密集探索奖励,并利用Elo评分系统实现智能体的有效配对。实验结果表明,训练后的智能体能够在不需队友间通信的情况下超越顶级学习智能体。

原理

本文的核心在于通过两个阶段的训练系统来提升智能体在Pommerman中的表现:课程学习和基于种群的自玩。课程学习阶段通过逐步增加难度的三个阶段,帮助智能体学习基本技能,如地图探索、物品拾取和防御策略。基于种群的自玩阶段则通过让一组智能体相互竞争,自然地演化出更优的策略。此外,为了解决稀疏奖励问题,本文提出了一个基于智能体性能的自适应退火因子,动态调整探索奖励,使智能体在训练过程中逐渐专注于游戏的主要目标。匹配机制则利用Elo评分系统,确保智能体在训练中能够与适当难度的对手配对,促进渐进式学习。

流程

  1. 课程学习阶段:智能体首先与静态对手(不移动)对战,学习基本的地图探索和物品拾取技能。随后,智能体与简单移动对手(随机移动但不放置炸弹)对战,学习更复杂的策略。最后,智能体与能够移动和放置炸弹的对手对战,学习防御和攻击的综合策略。
  2. 基于种群的自玩阶段:一组智能体(包括课程学习阶段训练出的智能体和一些规则基础的对手)进行相互对战,通过Elo评分系统进行匹配,确保每个智能体都能与适当难度的对手对战,从而促进策略的进化和性能的提升。

应用

本文提出的多智能体训练系统不仅适用于Pommerman游戏,还可以推广到其他需要复杂策略和团队合作的多智能体环境中。例如,在军事模拟、自动驾驶和复杂工业流程控制等领域,这种训练方法可以帮助开发出更智能、更协作的系统。此外,通过自适应奖励调整和智能匹配机制,该方法还能有效提升智能体在面对复杂和动态环境时的适应性和学习效率。