期刊文章详细信息
文献类型:期刊文章
机构地区:[1]长沙电力学院数学与计算机系,长沙410077 [2]长沙交通学院网络中心,长沙410076
基 金:国家自然科学基金项目资助 !(6 0 0 75 0 19)
年 份:2001
卷 号:38
期 号:4
起止页码:487-494
语 种:中文
收录情况:AJ、BDHX、BDHX2000、CSA-PROQEUST、CSCD、CSCD2011_2012、EI、IC、JST、RCCSE、SCOPUS、ZGKJHX、核心刊
摘 要:大状态空间值函数的激励学习是当今国际激励学习领域的一个热点和难点问题 .将记忆心理学中有关遗忘的基本原理引入值函数的激励学习 ,形成了一类适合于值函数激励学习的遗忘算法 .首先简要介绍了解决马尔可夫决策问题的基本概念 ,比较了离策略和在策略激励学习算法的差别 ,概述了标准的 SARSA(λ)算法 .在分析了人类记忆和遗忘的一些特征后 ,提出了一个智能体遗忘准则 ,进而将 SARSA(λ)算法改进为具有遗忘功能的 Forget-SARSA(λ)算法 。
关 键 词:激励学习 SARSA(λ)算法 MARKOV决策过程 遗忘算法 值函数 人工智能
分 类 号:TP18]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...