PUZZLES:强化学习算法推理能力的新基准

PUZZLES: A Benchmark for Neural Algorithmic Reasoning

摘要

本文介绍了一个名为 PUZZLES 的基准测试,旨在促进强化学习中算法和逻辑推理的发展。该基准测试基于 Simon Tatham 的便携式谜题集,包含 40 个不同的逻辑谜题,具有可调整的大小和复杂度。作者评估了各种强化学习算法在 PUZZLES 上的性能,并提供了基线比较和未来研究的潜力。

原理

PUZZLES 环境通过定义一致的状态、动作和观察空间来封装每个逻辑谜题的任务。它还提供了两种观察空间,一种是谜题的离散内部游戏状态表示,另一种是游戏界面的视觉表示。这些观察空间可以轻松地包装,以便与更高级的神经架构(如图神经网络或 Transformer)一起使用。所有谜题都提供了一个离散的动作空间,其基数仅不同。为了适应解决这些谜题所需的固有难度和适当的算法推理,环境允许用户实现自己的奖励结构,促进成功的强化学习代理的训练。所有谜题都在具有确定性状态转换的二维游戏区域中进行,其中转换仅在有效用户输入后发生。大多数谜题没有步数上限,只能通过成功解决谜题来完成。具有不良策略的代理可能永远不会达到终端状态。因此,环境提供了基于状态重复的早期情节终止选项。

流程

首先,用户需要选择要解决的谜题和难度级别。然后,环境会生成一个谜题实例,并提供初始状态和观察。用户可以通过执行动作来改变谜题的状态,并根据环境的反馈获得奖励。当谜题被成功解决或达到最大步数时,情节结束。用户可以根据情节长度和奖励来评估自己的策略,并通过多次尝试和调整来改进策略。

应用

PUZZLES 基准测试可以用于评估强化学习算法在算法和逻辑推理方面的性能,为研究人员提供一个标准化的评估框架。它还可以用于比较不同算法的性能,促进算法的改进和发展。此外,PUZZLES 基准测试可以用于研究逻辑谜题的解法,为人类解决逻辑谜题提供参考。