探索指数权重算法在多玩家博弈中的收敛性与应用前景
摘要
本文研究了具有恒定学习率的指数权重算法(Exponential Weights Algorithm)在离散时间重复交互中的最终迭代收敛性质。文章考虑了多个玩家独立使用指数权重算法的情况,并分析了混合策略轮廓(mixed action profile)pt在不同阶段的行为。文章证明了在存在严格纳什均衡(strict Nash equilibrium)的情况下,玩家在下一阶段选择严格纳什均衡的概率几乎必然收敛到0或1。此外,文章还证明了pt的极限,如果存在,属于“纳什均衡与等额支付”(Nash Equilibria with Equalizing Payoffs)集合。在强协调游戏中,玩家的支付在所有玩家选择相同行动时为正,否则为0,文章证明了pt几乎必然收敛到某个严格纳什均衡。文章最后提出了一些开放问题。
Read more...








