期刊文章详细信息
文献类型:期刊文章
机构地区:[1]广西工学院计算机工程系,广西柳州545006 [2]内蒙古大学自动化系,呼和浩特010021
基 金:广西自然科学基金(桂科自0481016);教育部重点项目基金(204031);内蒙古大学博士基金(203043)资助
年 份:2005
卷 号:36
期 号:2
起止页码:210-213
语 种:中文
收录情况:AJ、BDHX、BDHX2004、CAS、CSCD、CSCD_E2011_2012、JST、MR、RCCSE、WOS、ZGKJHX、ZMATH、ZR、核心刊
摘 要:研究了行动-评价强化学习方法,通过把多步截断学习引入评价器代替单步学习,并定义一种新的迹来记忆最新的多步学习经验,提出一种新的行动-评价强化学习算法,并进行仿真实验,实验结果表明,新算法的学习效率有明显的提高,而在计算代价上仅多k个单位.
关 键 词:强化学习 行动-评价 多步截断 适合迹
分 类 号:TP18]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...