期刊文章详细信息

改进DDPG算法在自动驾驶中的应用
Self-Driving Via Improved DDPG Algorithm

文献类型：期刊文章

作　　者：张斌[1] 何明[1,2] 陈希亮[1] 吴春晓[1] 刘斌[1] 周波[1]

ZHANG Bin;HE Ming;CHEN Xiliang;WU Chunxiao;LIU Bin;ZHOU Bo(College of Command and Control Engineering, The Army Engineering University of PLA, Nanjing 210002, China;Institute of Network Information, Academy of Systems Engineering, Academy of Military Sciences, Beijing 100071, China)

机构地区：[1]中国人民解放军陆军工程大学指挥控制工程学院,南京210002 [2]军事科学院系统工程研究院网络信息研究所,北京100071

出　　处：《计算机工程与应用》

基　　金：国家重点研发计划(No.2016YFC0800606;No.2016YFC0800310);中国工程院重点咨询课题(No.2017-XZ-05);江苏省自然科学基金(No.BK20150721;No.BK20161469);中国博士后科学基金(No.2015M582786;No.2016T91017);江苏省重点研发计划(No.BE2015728;No.BE2016904);江苏省科技基础设施建设计划(No.BM2014391)

年　　份：2019

卷　　号：55

期　　号：10

起止页码：264-270

语　　种：中文

收录情况：AJ、BDHX、BDHX2017、CSA、CSA-PROQEUST、CSCD、CSCD_E2019_2020、IC、INSPEC、JST、RCCSE、ZGKJHX、核心刊

摘　　要：深度确定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)作为深度强化学习中的经典算法,在连续控制问题上有着较大的优势,被应用于自动驾驶领域。针对DDPG缺少策略动作过滤导致的非法策略比例较高引起的训练效率低、收敛速度慢等问题,提出基于失败经验纠错的深度确定性策略梯度算法。通过分离经验缓存池,根据驾驶表现选择失败数据训练,并将策略网络单输出转化为油门和刹车控制量,通过正态分布噪声改善探索策略。TORCS平台仿真实验表明,所提算法相对于DDPG算法与DQN(Deep Q-learning Network)算法,训练效率明显提升,非法驾驶策略降低为0。

关键词：深度强化学习自动驾驶 DDPG算法经验缓存分离 TORCS

分类号：TP391]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

重庆科技学院机构知识库

期刊文章详细信息

改进DDPG算法在自动驾驶中的应用
Self-Driving Via Improved DDPG Algorithm

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

重庆科技学院机构知识库

期刊文章详细信息

改进DDPG算法在自动驾驶中的应用 Self-Driving Via Improved DDPG Algorithm

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

改进DDPG算法在自动驾驶中的应用
Self-Driving Via Improved DDPG Algorithm