CADP算法:解决多模型马尔可夫决策过程的新方法

Solving Multi-Model MDPs by Coordinate Ascent and Dynamic Programming

摘要

本文介绍了一种名为CADP(Coordinate Ascent Dynamic Programming)的新算法,用于解决多模型马尔可夫决策过程(MMDP)问题。MMDP是一种用于计算在马尔可夫决策过程(MDP)中对参数不确定性具有鲁棒性的策略的框架。由于MMDP的求解是NP难问题,大多数方法采用近似解法。CADP算法结合了坐标上升法和动态规划算法,通过迭代调整模型权重来保证策略的单调改进至局部最优。理论分析和数值结果表明,CADP在多个基准问题上显著优于现有方法。

原理

CADP算法的核心创新在于采用了坐标上升的视角来调整模型权重,从而在动态规划框架下迭代优化策略。具体来说,CADP通过计算MMDP的策略梯度,并利用这些梯度来调整模型权重,以实现策略的单调改进。与传统的动态规划算法相比,CADP通过引入可调整的模型权重,改善了算法的理论属性和实际性能。此外,CADP的计算复杂度较低,提供了更好的理论保证和实际性能。

流程

CADP算法的工作流程包括两个主要组件:首先,算法1是一个内部组件,使用动态规划来计算给定可调整模型权重的策略。其次,算法2是外部组件,从任意初始策略开始,交替计算可调整模型权重并使用算法1改进策略。具体步骤包括初始化策略、计算模型权重、更新策略和价值函数,直至策略不再改进。CADP的每次迭代都保证了策略的单调改进,直至达到局部最优。

应用

CADP算法在多个领域具有广泛的应用前景,特别是在需要处理参数不确定性的强化学习、库存控制、金融、医疗和药物管理等领域。由于CADP能够计算出对模型参数不确定性具有鲁棒性的策略,它在实际应用中能够提供更可靠的决策支持。此外,CADP算法的理论分析和数值实验表明,它在多个基准问题上优于现有方法,显示出强大的实用潜力。