∆-IRIS:通过上下文感知令牌化实现高效世界模型的强化学习代理

Efficient World Models with Context-Aware Tokenization

摘要

本文介绍了一种名为∆-IRIS的新型强化学习(RL)代理,它采用了一种高效的世界模型架构,通过上下文感知令牌化来模拟环境并学习新行为。该代理的核心是一个由离散自编码器和自回归变换器组成的世界模型,能够编码时间步之间的随机增量,并使用连续令牌总结当前世界状态。在Crafter基准测试中,∆-IRIS在多个帧预算下达到了新的技术水平,并且训练速度比之前的基于注意力的方法快一个数量级。

原理

∆-IRIS的工作原理基于模型基础的强化学习(MBRL),通过构建一个准确的世界模型来简化策略训练。该世界模型由两部分组成:一个离散自编码器和一个自回归变换器。离散自编码器负责编码时间步之间的随机增量(∆-tokens),而自回归变换器则通过总结当前世界状态的连续令牌(I-tokens)来预测未来的增量。这种设计使得模型能够有效地处理复杂环境中的视觉挑战帧,并通过减少所需的令牌数量来加速计算。

流程

∆-IRIS的工作流程包括三个主要阶段:经验收集、世界模型学习和策略改进。在经验收集阶段,代理与环境交互并收集数据。在世界模型学习阶段,代理使用收集的数据训练离散自编码器和自回归变换器。在策略改进阶段,代理在想象中的部分可观测马尔可夫决策过程(POMDP)中学习策略。具体来说,代理观察重建的图像观察,并根据世界模型的预测进行动作选择和奖励预测。

应用

∆-IRIS的应用前景广泛,特别是在需要复杂环境模拟和高数据效率的领域,如视频游戏、机器人导航和自动驾驶等。其高效的世界模型架构和快速训练能力使其成为未来强化学习研究和应用的有力候选。