Siamese神经网络在侦察盲棋中的应用:提升不完全信息游戏策略

Neural Network-based Information Set Weighting for Playing Reconnaissance Blind Chess

摘要

本文介绍了一种基于神经网络的信息集加权方法,用于在侦察盲棋(Reconnaissance Blind Chess, RBC)这一不完全信息游戏中提升游戏策略。作者通过训练两种不同的神经网络来估计信息集中每个状态的似然性,从而改善游戏中的决策过程。实验结果表明,Siamese神经网络在给定领域中比传统的卷积神经网络更为高效且准确性更高。最终,基于生成的权重方案构建的RBC玩家在公开排行榜上排名第五。

原理

本文采用Siamese神经网络来学习一个函数,该函数将游戏位置的信息集映射到权重分布,进而转化为每个状态为真实游戏状态的概率。Siamese网络通过三元组损失训练,旨在嵌入输入,使得正例(真实游戏状态)在嵌入空间中比负例(非真实状态)更接近观察历史。这种网络结构使得在嵌入空间中的距离能够模拟给定观察下棋盘状态发生的概率,从而为不完全信息游戏中的决策提供支持。

流程

在RBC游戏中,玩家每轮通过感知和移动两个动作来更新信息集。感知动作利用Siamese神经网络计算信息集中的每个棋盘状态的权重,选择能够最大化信息增益的区域进行感知。移动动作则使用Stockfish引擎评估每个棋盘状态上的移动,结合Siamese网络的权重分布,选择总体评估最高的移动。整个流程围绕信息集的跟踪和利用Siamese网络的权重进行决策。

应用

该研究不仅在RBC游戏中展示了其有效性,而且其方法论具有通用性,可应用于其他不完全信息决策任务中。随着进一步的研究和优化,这种方法有望在更广泛的领域内提升人工智能在复杂决策环境中的表现。