期刊文章详细信息
文献类型:期刊文章
ZHANG Bin;HE Ming;CHEN Xiliang;WU Chunxiao;LIU Bin;ZHOU Bo(College of Command and Control Engineering, The Army Engineering University of PLA, Nanjing 210002, China;Institute of Network Information, Academy of Systems Engineering, Academy of Military Sciences, Beijing 100071, China)
机构地区:[1]中国人民解放军陆军工程大学指挥控制工程学院,南京210002 [2]军事科学院系统工程研究院网络信息研究所,北京100071
基 金:国家重点研发计划(No.2016YFC0800606;No.2016YFC0800310);中国工程院重点咨询课题(No.2017-XZ-05);江苏省自然科学基金(No.BK20150721;No.BK20161469);中国博士后科学基金(No.2015M582786;No.2016T91017);江苏省重点研发计划(No.BE2015728;No.BE2016904);江苏省科技基础设施建设计划(No.BM2014391)
年 份:2019
卷 号:55
期 号:10
起止页码:264-270
语 种:中文
收录情况:AJ、BDHX、BDHX2017、CSA、CSA-PROQEUST、CSCD、CSCD_E2019_2020、IC、INSPEC、JST、RCCSE、ZGKJHX、核心刊
摘 要:深度确定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)作为深度强化学习中的经典算法,在连续控制问题上有着较大的优势,被应用于自动驾驶领域。针对DDPG缺少策略动作过滤导致的非法策略比例较高引起的训练效率低、收敛速度慢等问题,提出基于失败经验纠错的深度确定性策略梯度算法。通过分离经验缓存池,根据驾驶表现选择失败数据训练,并将策略网络单输出转化为油门和刹车控制量,通过正态分布噪声改善探索策略。TORCS平台仿真实验表明,所提算法相对于DDPG算法与DQN(Deep Q-learning Network)算法,训练效率明显提升,非法驾驶策略降低为0。
关 键 词:深度强化学习 自动驾驶 DDPG算法 经验缓存分离 TORCS
分 类 号:TP391]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...