登录    注册    忘记密码

期刊文章详细信息

在加强型学习系统中用伪熵进行不确定性估计(英文)  ( EI收录)  

Uncertainty Estimate with Pseudo-Entropy in Reinforcement Learning

  

文献类型:期刊文章

作  者:张平[1] 斯特凡.卡纽[2]

机构地区:[1]国家科研中心817号 [2]启发与诊断实验室.贡比涅科技大学

出  处:《控制理论与应用》

年  份:1998

卷  号:15

期  号:1

起止页码:100-104

语  种:中文

收录情况:BDHX、BDHX1996、CAS、CSA、CSA-PROQEUST、CSCD、CSCD2011_2012、EI、IC、INSPEC、JST、MR、RCCSE、SCOPUS、ZGKJHX、ZMATH、核心刊

摘  要:加强型学习系统是一种与没有约束的、未知的环境相互作用的系统.学习系统的目标在于最大可能地获取累积奖励信号.这个奖励信号在有限、未知的生命周期内由系统所处的环境中得到.对于一个加强型学习系统,困难之一在于奖励信号非常稀疏,尤其是对于只有时延信号的系统.已有的加强型学习方法以价值函数的形式贮存奖励信号,例如著名的Q-学习.本文提出了一个基于状态的不确定性估计模型的方法.这个算法有效地利用了存贮于价值函数中的奖励信息.它同时适用于带有立即奖励和时延奖励信号两种情况.实验结果表明,本文的算法具有很好的学习行为.

关 键 词:加强型 熵估计  马尔柯夫过程 学习系统  伪熵  

分 类 号:TP273.22]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心