Q学习算法中网格离散化方法的收敛性分析

被引:7
作者
蒋国飞
高慧琪
吴沧浦
机构
[1] 北京理工大学自动控制系!北京,,北京理工大学自动控制系!北京,,北京理工大学自动控制系!北京,
关键词
Q学习; 动态规划; 马尔可夫决策问题; 连续状态和决策空间; 离散化;
D O I
暂无
中图分类号
O241 [数值分析];
学科分类号
070102 ;
摘要
Q学习算法是Watkins[1] 提出的求解信息不完全马尔可夫决策问题的一种强化学习方法 .要用Q学习算法来求解有连续状态和决策空间的随机最优控制问题 ,则需要先离散化问题的状态和决策空间 .在本文中 ,我们证明了在满足一定的Lipschitz连续性和有关集合为紧集的条件下 ,随着网格密度的增加 ,空间离散化后Q学习算法求得的最优解依概率 1收敛于原连续问题的最优解
引用
收藏
页码:194 / 198
页数:5
相关论文
共 5 条
[1]  
Stochasticoptimalcontrol:thediscretetimecase. BertseksDP. . 1978
[2]  
Learningfromdelayedrewards. WatkinsCICH. King’’sCollege ,UK . 1989
[3]  
An optimal one-way multigrid algorithm for discrete-time stochastic control. Chow C S Tsitsiklis J N. IEEE Transactions on Automatic Control . 1991
[4]  
Convergence of discretization procedure in dynamic programming. Bertseks D P. IEEE Transactions on Automatic Control . 1975
[5]  
Approximations of Dynamic Programs I. Whitt,W. Mathematics of Operations Research . 1978