登录    注册    忘记密码

期刊文章详细信息

多步截断行动—评价强化学习算法    

A Truncated Multi-step Actor-Critic Reinforcement Learning Algorithm

  

文献类型:期刊文章

作  者:李春贵[1] 刘永信[2] 陈波[1]

机构地区:[1]广西工学院计算机工程系,广西柳州545006 [2]内蒙古大学自动化系,呼和浩特010021

出  处:《内蒙古大学学报(自然科学版)》

基  金:广西自然科学基金(桂科自0481016);教育部重点项目基金(204031);内蒙古大学博士基金(203043)资助

年  份:2005

卷  号:36

期  号:2

起止页码:210-213

语  种:中文

收录情况:AJ、BDHX、BDHX2004、CAS、CSCD、CSCD_E2011_2012、JST、MR、RCCSE、WOS、ZGKJHX、ZMATH、ZR、核心刊

摘  要:研究了行动-评价强化学习方法,通过把多步截断学习引入评价器代替单步学习,并定义一种新的迹来记忆最新的多步学习经验,提出一种新的行动-评价强化学习算法,并进行仿真实验,实验结果表明,新算法的学习效率有明显的提高,而在计算代价上仅多k个单位.

关 键 词:强化学习  行动-评价  多步截断  适合迹  

分 类 号:TP18]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心