期刊文章详细信息

一种有限时段Markov决策过程的强化学习算法
An algorithm of reinforcement learning for finite-horizon Markov decision processes

文献类型：期刊文章

作　　者：李春贵[1] 刘永信[2]

机构地区：[1]广西工学院计算机系,广西柳州545006 [2]内蒙古大学自动化系,内蒙古呼和浩特010021

出　　处：《广西工学院学报》

年　　份：2003

卷　　号：14

期　　号：1

起止页码：1-4

语　　种：中文

收录情况：CAS、CSA-PROQEUST、IC、ZMATH、普通刊

摘　　要：研究有限时段非平稳的 Markov决策过程的强化学习算法。通过引入一个人工吸收状态 ,把有限时段问题变为无限时段问题 ,从而可利用通常的强化学习方法来求解。在文献 [3]提出的算法思想基础上 ,提出了一种新的有限时段非平稳的 Markov决策过程的强化学习算法。

关键词：强化学习有限时段 MARKOV决策过程无完全模型库存控制机器学习非平稳

分类号：TP181]

正在载入数据...

正在载入数据...

正在载入数据...

正在载入数据...

正在载入数据...

正在载入数据...