AlphaDou:集成叫牌的高性能斗地主AI系统

AlphaDou: High-Performance End-to-End Doudizhu AI Integrating Bidding

摘要

本文介绍了一种名为AlphaDou的高性能端到端斗地主AI系统,该系统集成了叫牌阶段。斗地主是一种在中国非常流行的三人卡牌游戏,具有巨大的状态/动作空间和独特的竞争与合作推理特性,使得游戏极难解决。AlphaDou通过使用强化学习框架,同时估计胜率和期望值,对动作空间进行修剪,并基于胜率生成策略。该模型在真实的斗地主环境中训练,达到了公开可用模型中的最先进水平。

原理

AlphaDou的工作原理基于强化学习(RL)框架,通过神经网络同时估计胜率和期望值。在叫牌阶段,模型记录观察数据并生成每个可能动作的5×54观察矩阵。在出牌阶段,模型使用72×54观察矩阵来生成每个可能动作的观察数据。模型通过重复输入数据部分b四次并将其与输入的剩余部分连接,确保网络对影响最终分数的输入给予更多重视。AlphaDou使用深度蒙特卡洛(DMC)方法,通过模拟样本路径来估计策略和价值函数。DMC方法通过计算每个状态-动作对的累积回报并更新Q(s, a)值来改进策略。AlphaDou通过概率和价值分解来处理胜分和负分分布之间的显著差距,从而稳定赌博游戏AI的训练。

流程

AlphaDou的工作流程包括两个主要阶段:叫牌阶段和出牌阶段。在叫牌阶段,每个玩家根据手中的牌进行叫牌,最高叫牌者成为地主。在出牌阶段,玩家轮流出牌,直到一名玩家出完所有牌为止。模型通过生成策略并计算Q(s, a)值来选择最佳动作。在出牌阶段,模型考虑炸弹和火箭的使用,这些可以双倍增加游戏的赌注。AlphaDou通过epsilon-greedy方法引入探索,确保模型在生成数据时不会过度依赖已有策略。

应用

AlphaDou的应用前景广阔,特别是在需要复杂策略和决策的领域,如在线游戏平台、AI对战比赛和教育工具。通过模拟和学习人类玩家的策略,AlphaDou可以提供更接近人类专家水平的游戏体验,并可能在未来用于开发更高级的AI系统,以解决其他复杂的不完全信息游戏。