登录    注册    忘记密码

期刊文章详细信息

改进DDPG算法在自动驾驶中的应用    

Self-Driving Via Improved DDPG Algorithm

  

文献类型:期刊文章

作  者:张斌[1] 何明[1,2] 陈希亮[1] 吴春晓[1] 刘斌[1] 周波[1]

ZHANG Bin;HE Ming;CHEN Xiliang;WU Chunxiao;LIU Bin;ZHOU Bo(College of Command and Control Engineering, The Army Engineering University of PLA, Nanjing 210002, China;Institute of Network Information, Academy of Systems Engineering, Academy of Military Sciences, Beijing 100071, China)

机构地区:[1]中国人民解放军陆军工程大学指挥控制工程学院,南京210002 [2]军事科学院系统工程研究院网络信息研究所,北京100071

出  处:《计算机工程与应用》

基  金:国家重点研发计划(No.2016YFC0800606;No.2016YFC0800310);中国工程院重点咨询课题(No.2017-XZ-05);江苏省自然科学基金(No.BK20150721;No.BK20161469);中国博士后科学基金(No.2015M582786;No.2016T91017);江苏省重点研发计划(No.BE2015728;No.BE2016904);江苏省科技基础设施建设计划(No.BM2014391)

年  份:2019

卷  号:55

期  号:10

起止页码:264-270

语  种:中文

收录情况:AJ、BDHX、BDHX2017、CSA、CSA-PROQEUST、CSCD、CSCD_E2019_2020、IC、INSPEC、JST、RCCSE、ZGKJHX、核心刊

摘  要:深度确定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)作为深度强化学习中的经典算法,在连续控制问题上有着较大的优势,被应用于自动驾驶领域。针对DDPG缺少策略动作过滤导致的非法策略比例较高引起的训练效率低、收敛速度慢等问题,提出基于失败经验纠错的深度确定性策略梯度算法。通过分离经验缓存池,根据驾驶表现选择失败数据训练,并将策略网络单输出转化为油门和刹车控制量,通过正态分布噪声改善探索策略。TORCS平台仿真实验表明,所提算法相对于DDPG算法与DQN(Deep Q-learning Network)算法,训练效率明显提升,非法驾驶策略降低为0。

关 键 词:深度强化学习  自动驾驶 DDPG算法  经验缓存分离  TORCS  

分 类 号:TP391]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心