登录    注册    忘记密码

期刊文章详细信息

一种有限时段Markov决策过程的强化学习算法    

An algorithm of reinforcement learning for finite-horizon Markov decision processes

  

文献类型:期刊文章

作  者:李春贵[1] 刘永信[2]

机构地区:[1]广西工学院计算机系,广西柳州545006 [2]内蒙古大学自动化系,内蒙古呼和浩特010021

出  处:《广西工学院学报》

年  份:2003

卷  号:14

期  号:1

起止页码:1-4

语  种:中文

收录情况:CAS、CSA-PROQEUST、IC、ZMATH、普通刊

摘  要:研究有限时段非平稳的 Markov决策过程的强化学习算法。通过引入一个人工吸收状态 ,把有限时段问题变为无限时段问题 ,从而可利用通常的强化学习方法来求解。在文献 [3]提出的算法思想基础上 ,提出了一种新的有限时段非平稳的 Markov决策过程的强化学习算法 。

关 键 词:强化学习  有限时段  MARKOV决策过程 无完全模型  库存控制  机器学习  非平稳

分 类 号:TP181]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心