期刊文章详细信息

多步截断行动—评价强化学习算法
A Truncated Multi-step Actor-Critic Reinforcement Learning Algorithm

文献类型：期刊文章

作　　者：李春贵[1] 刘永信[2] 陈波[1]

机构地区：[1]广西工学院计算机工程系,广西柳州545006 [2]内蒙古大学自动化系,呼和浩特010021

出　　处：《内蒙古大学学报（自然科学版）》

基　　金：广西自然科学基金(桂科自0481016);教育部重点项目基金(204031);内蒙古大学博士基金(203043)资助

年　　份：2005

卷　　号：36

期　　号：2

起止页码：210-213

语　　种：中文

收录情况：AJ、BDHX、BDHX2004、CAS、CSCD、CSCD_E2011_2012、JST、MR、RCCSE、WOS、ZGKJHX、ZMATH、ZR、核心刊

摘　　要：研究了行动-评价强化学习方法,通过把多步截断学习引入评价器代替单步学习,并定义一种新的迹来记忆最新的多步学习经验,提出一种新的行动-评价强化学习算法,并进行仿真实验,实验结果表明,新算法的学习效率有明显的提高,而在计算代价上仅多k个单位.

关键词：强化学习行动-评价多步截断适合迹

分类号：TP18]

正在载入数据...

正在载入数据...

正在载入数据...

正在载入数据...

正在载入数据...

正在载入数据...