期刊文章详细信息
一种有限时段Markov决策过程的强化学习算法
An algorithm of reinforcement learning for finite-horizon Markov decision processes
文献类型:期刊文章
机构地区:[1]广西工学院计算机系,广西柳州545006 [2]内蒙古大学自动化系,内蒙古呼和浩特010021
年 份:2003
卷 号:14
期 号:1
起止页码:1-4
语 种:中文
收录情况:CAS、CSA-PROQEUST、IC、ZMATH、普通刊
摘 要:研究有限时段非平稳的 Markov决策过程的强化学习算法。通过引入一个人工吸收状态 ,把有限时段问题变为无限时段问题 ,从而可利用通常的强化学习方法来求解。在文献 [3]提出的算法思想基础上 ,提出了一种新的有限时段非平稳的 Markov决策过程的强化学习算法 。
关 键 词:强化学习 有限时段 MARKOV决策过程 无完全模型 库存控制 机器学习 非平稳
分 类 号:TP181]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...